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文艺 复兴 以 来 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规范 ， 使 西方 国家 在 自然 科学 的 各 
个 领域 取得 了 垄断 性 的 优势 ;也 正 是 这 样 的 优势 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 家 非 
出 、 独 领 风 骚 。 在 商业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧密 地 结合 ， 计 算 机 学 科 中 
的 许多 泰山 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科 学 著作 ， 不 仅 壁 划 了 研究 
的 范畴 ， 还 揭示 了 学 术 的 源 变 ， 既 遵循 学 术 规 范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 因 年 月 的 流 
逝 而 减退 。 

近年 ， 在 全 球 信息 化 大 潮 的 推动 下 ， 我 国 的 计算 机 产业 发 展 迅 猛 ， 对 专业 人 才 的 需求 日 益 
人 迫切。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ， 而 专业 教材 的 建设 在 教育 战略 上 显 
得 举足轻重 。 在 我 国信 息 技 术 发 展 时 间 较 短 的 现状 下 ， 美 国 等 发 达 国 家 在 其 计算 机 科学 发 展 的 
几 十 年 间 积 淀 和 发 展 的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国外 优秀 计算 机 教材 
将 对 我 国 计 算 机 教育 事业 的 发 展 起 到 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 设 真 正 的 世界 一 流 
大 学 的 必由之路 。 

机 械 工业 出 版 社 华章 公司 较 早 意识 到 “出 版 要 为 教育 服务 。 自 1998 年 开始 ， 我 们 就 将 工 
作 重 点 放 在 了 六 选 、 移 译 国外 优秀 教材 上 。 经 过 多 年 的 不 懈 努 力 ， 我 们 与 Pearson，McGraw- 
Hill, Elsevier, MIT, John Wiley & Sons, Cengage 等 世界 著名 出 版 公司 建立 了 良好 的 合作 关 
系 ， 从 他 们 现 有 的 数 百 种 教材 中 王选 出 Andrew S. Tanenbaum, Bjarne Stroustrup, Brian W. 
Kernighan, Dennis Ritchie, Jim Gray, Afred V. Aho, John E. Hopcroft, Jeffrey D. Ullman, 
Abraham Silberschatz, William Stallings, Donald E. Knuth, John L. Hennessy, Larry L. 
Peterson 等 大 师 名 家 的 一 批 经 典 作品 ， 以 “计算 机 科学 丛书 ”为 总 称 出 版 ， 供 读者 学 习 、 研 究 
及 珍藏 。 大 理 石 纹理 的 封面 ， 也 正体 现 了 这 套 丛书 的 品位 和 格调 。 

“计算 机 科学 从 书 ” 的 出 版 工作 得 到 了 国内 外 学 者 的 鼎力 相助 ， 国 内 的 专家 不 仅 提供 了 中 
肯 的 选 题 指导 ， 还 不 辞 劳 苗 地 担任 了 翻译 和 审 校 的 工作 ;而 原 书 的 作者 也 相当 关注 其 作品 在 中 
国 的 传播 ， 有 的 还 专门 为 其 书 的 中 译本 作 序 。 迄 今 ,“ 计 算 机 科学 从 书 ” 已 经 出 版 了 近 两 百 个 
品种 ， 这 些 书 籍 在 读者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采用 为 正式 教材 和 参考 书籍 。 其 影 
印 版 “经 典 原版 书库 ”作为 姊妹 篇 也 被 越 来 越 多 实施 双语 教学 的 学 校 所 采用 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因 素 使 我 们 的 图 
书 有 了 质量 的 保证 。 随 着 计算 机 科学 与 技术 专业 学 科 建 设 的 不 断 完 善 和 教材 改革 的 逐渐 深化 ， 
教育 界 对 国外 计算 机 教材 的 需求 和 应 用 都 将 步 入 一 个 新 的 阶段 ， 我 们 的 目标 是 尽善尽美 ， 而 反 
馈 的 意见 正 是 我 们 达到 这 一 终极 目标 的 重要 帮助 。 华 章 公司 欢 迎 老师 和 读者 对 我 们 的 工作 提出 
建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 : 


华章 网 站 :; www.hzbook.com 
电子 邮件 ，hzjsj@hzbook.com 
联系 电话 : (010) 88379604 zo | 
联系 地 址 ， 北 京 市 西城 区 百 万 庄 南 街 1 号 华章 教育 
邮政 编码 : 100037 华章 科技 图 书 出 版 中 心 
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编译 器 构造 原理 和 技术 可 以 说 是 计算 机 科学 中 理论 与 实践 相 结合 的 最 好 典范 。 到 目前 为 
止 ， 大 多 数 教材 都 是 介绍 编译 器 构造 原理 的 ， 很 少 有 详细 介绍 实用 编译 器 构造 的 专门 书籍 。 在 
编译 原理 课程 的 教学 过 程 中 ， 如 何 设 计 和 组 织 实验 一 直 是 一 个 难题 。 这 主要 是 因为 ， 任 何 实用 
的 编译 器 往 往 都 是 庞大 的 程序 ， 而 小 的 实验 编译 器 又 难以 反映 编译 程序 构造 的 许多 重要 技术 。 
本 书 可 以 说 是 弥补 了 传统 编译 教材 在 实践 方面 的 缺陷 ， 如 果 和 希望 向 学 生 展 示 实 用 编译 器 是 如 何 
设计 的 ， 本 书 应 该 是 最 佳 选择 。 

lce 编译 器 是 一 个 具有 产品 级 质量 的 用 于 研究 的 C 编译 器 ,在 UNIX 界 广 为 流行 。 本 书 深 
入 到 lce 编译 器 的 内 部 ， 在 代码 级 对 该 系统 的 设计 和 实现 进行 了 详细 的 介绍 。 全 书 共 分 19 BE, 
详细 讲述 了 存储 管理 、 符 号 表 、 词 法 分 析 、 语 法 分 析 、 中 间 代 码 生成 、 优 化 、 目 标 代码 产生 
等 编译 程序 的 各 个 部 分 。 本 书 特别 针对 3 种 目标 机 器 (MIPS, SPARC 和 Intel 386) 介绍 了 代 
码 生 成 器 的 设计 。 通 过 学 习 上 述 内 容 ， 读 者 可 以 深入 了 解 产 品级 编译 程序 设计 中 的 许多 关键 技 
术 ， 对 于 如 何 设计 和 实现 一 个 实用 的 编译 器 有 具体 、 真 切 的 认识 ， 这 是 其 他 教材 无 法 达到 的 
效果 。 

本 书 的 两 位 作者 都 具有 深厚 的 教学 和 研究 背景 。Christopher W. Fraser 从 1975 年 就 开始 研 
究 编 译 技术 ， 尤 其 对 于 从 紧缩 规范 自动 产生 代码 生成 器 这 一 技术 有 深入 的 研究 ， 在 该 领域 发 表 
了 多 篇 论文 。 他 提出 了 可 变 目 标的 窥 孔 优化 方法 ， 该 方法 被 广 为 流 行 的 C 编译 器 一 一 GCC 所 
采纳 。 从 1977 年 到 1986 年 ，Fraser 在 亚利桑那 大 学 从 事 计 算 机 科学 (包括 编译 技术 ) 的 教学 
工作 。1986 年 以 后 ， 他 在 AT&T 贝尔 实验 室 主持 计算 技术 的 研究 工作 。David R. Hanson 是 普 
林 斯 顿 大 学 计算 机 科学 教授 ， 具 有 20 多 年 的 研究 程序 语言 的 经 验 ， 主 持 了 与 贝尔 实验 室 的 合 
EWR, Æ lce 的 开发 者 之 一 。 

本 书 是 作者 的 教学 、 科 研 和 开发 思想 以 及 经 验 的 总 结 ， 读 者 可 以 从 字里行间 体会 到 两 位 作 
者 在 编译 器 的 研究 和 设计 方面 的 造 讶 。 

国防 科学 技术 大 学 计算 机 学 院 从 事 编 译 原理 课程 教学 和 科研 工作 的 几 位 教师 共同 完成 了 本 
书 的 翻译 工作 。 全 书 由 王 挺 、 黄 春 、 刘 金 红 、 张 晓 藻 和 陈 耀 东 负 责 翻译 ， 由 王 挺 和 黄 春 通 篇 整 
理 。 由 于 时 间 和 水 平 有 限 ， 翻 译 错误 在 所 难免 ， 娠 请 读者 指正 。 
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编译 天 是 程序 员 使 用 的 关键 工具 ， 程 序 员 每 天 都 在 使 用 编译 器 ， 并 且 非 常 依赖 于 其 正确 性 
和 可 靠 性 。 编 译 器 必须 接受 程序 语言 的 所 有 标准 定义 ， 以 便 源 代码 可 以 实现 跨 平 台 的 可 移植 
性 。 编 译 器 必须 生成 高 效 的 目标 代码 ， 但 更 重要 的 是 ， 编 译 器 必须 生成 正确 的 目标 代码 ， 只 有 
可 靠 的 编译 器 才能 生成 可 靠 的 应 用 程序 。 

编译 需 本 身 是 一 个 大 而 复杂 的 应 用 程序 ， 值 得 我 们 深入 分 析 研究 。 本 书 介绍 了 ANSI C 语 
言 编译 器 lee 的 大 部 分 实现 ， 对 编译 器 的 介绍 方式 与 B. W. Kernighan 和 P. J. Plauger 合 著 的 
《 Software Tools 》( Addison-Wesley，1976 ) 一 书 对 文本 处 理 (例如 文本 编辑 和 安 处 理 ) 的 介绍 
类 似 。 研 究 实 用 的 工具 软件 ， 是 学 习 软 件 设计 和 实现 技术 的 最 好 方法 。 本 书 在 代码 级 详细 介绍 
了 一 个 实用 的 编译 器 ， 该 编译 器 的 完整 源 代码 可 在 ftp.cs.princeton.edu ( 128.112.152.13 ) 服务 
arf) puby/lce 目录 下 ， 通 过 匿名 ftp 服务 得 到 。 

lee 不 是 一 个 研究 系统 ， 而 是 一 个 实用 的 编译 器 产品 。 从 1988 EFt, lee 就 用 于 编译 实 
际 程序 ， 现 在 每 天 都 有 数 百名 C 程序 员 在 使 用 它 。 由 于 本 书 详细 分 析 了 leo 编译 器 的 设计 与 实 
现 ， 因 此 用 于 介绍 相关 支撑 材料 的 篇 幅 较 少 ， 仅 展示 了 涉及 的 理论 知识 ， 而 更 为 系统 的 编译 技 
术 的 介绍 可 以 参见 其 他 教材 。 本 书 有 意 省 略 一 些 涉 及 琐碎 和 重复 实现 的 语言 特征 ， 而 将 这 部 分 
内 容 作为 练习 。 

显然 ， 本 书 将 使 读者 对 编译 器 的 构造 有 更 多 的 了 解 。 然 而 只 有 少数 程序 员 需 要 了 解 编译 器 
的 设计 与 实现 ， 大 多 数 程序 员 从 事 的 是 应 用 程序 或 其 他 系统 程序 的 开发 。 但 是 ， 基 于 以 下 4 个 
原因 ， 大 多 数 C 程序 员 都 可 以 从 本 书 中 受益 。 

第 一 ,一 般 来 说 ， 如 果 程 序 员 能 够 理解 C 编译 器 的 工作 原理 ,通常 可 以 成 为 较 好 的 程序 员 ， 
特别 是 较 好 的 C 程序 员 。 编 译 器 设计 者 必须 全 面 准确 地 理解 C 语言 的 每 一 个 特性 ， 程 序 员 通 
过 学 习 这 些 特 性 的 实现 ， 能 够 更 好 地 掌握 语言 本 身 及 其 在 现代 计算 机 上 的 高 效 实现 。 

第 二 ， 大 多 数 程 序 设计 教材 都 是 通过 一 些 精简 的 示例 来 说 明 编 程 技巧 的 ， 但 大 多 数 程序 员 
都 是 在 从 事 大 型 程序 的 开发 ， 在 开发 过 程 中 需要 不 断 修 改 程序 ， 很 少 有 带 详 细 说 明 的 示例 可 以 
作为 大 型 程序 设计 的 参考 。lcc 不 是 完美 的 ， 但 是 本 书 详细 说 明了 该 程序 的 优 缺 点 ， 可 以 作为 
大 型 程序 开发 的 参考 。 

第 三 ， 编 译 器 是 计算 机 科学 中 理论 与 实践 相 结合 的 最 好 典范 。lce 展示 了 理论 与 实践 的 相 
互 作用 及 其 精美 的 结果 ， 展 示 了 实践 需求 牵引 理论 的 发 展 ， 这 些 都 可 以 清楚 地 从 代码 中 找到 。 
通过 一 个 真实 的 程序 来 研究 这 些 相互 作用 ， 可 以 帮助 程序 员 理解 何 时 、 何 地 以 及 如 何 运 用 不 同 
的 技术 。 此 外 ，lcc 也 阐明 了 众多 的 C 编程 技术 。 

第 四 ， 这 本 书本 身 是 一 个 文本 程序 (literate program)， 如 同 D. E. Knuth 所 著 的 《 TeX: The 
Program 》( Addison-Wesley，1986 ) 一 样 ， 本 书包 括 lec 的 源 代码 及 说 明 。 为 了 方便 读者 理解 ， 
本 书 并 未 按 源 程 序 的 顺序 对 程序 代码 进行 讲解 ， 而 是 有 意 进行 了 调整 。 

无 论 是 对 于 在 校 学 生还 是 专业 技术 人 员 ， 本 书 都 非常 适合 自学 使 用 。 本 书 为 lce 提供 了 说 
明 完 整 的 源 代 码 ， 和 希望 进行 编译 技术 实践 的 人 员 ， 以 及 在 需要 使 用 或 实现 基于 语言 的 工具 和 技 
术 的 应 用 领域 (如 用 户 接口 ) 中 工作 的 专业 人 员 ， 将 会 对 本 书 感 兴趣 。lce 的 相关 信息 可 通过 以 


VI 


下 地 址 获得 : ~www.cs.princeton.edu/software/Icc. 

本 书 全 面 而 真实 地 展示 了 一 个 大 型 软件 系统 ， 可 作为 软件 工程 课程 的 分 析 实 例 。 

对 于 编译 课程 来 说 ， 本 书 弥 补 了 传统 编译 教材 的 不 足 。 本 书 介绍 了 C 编译 器 的 一 种 实现 方 
法 ， 而 传统 教材 主要 介绍 编译 过 程 中 遇 到 的 各 种 问题 的 解决 算法 ， 因 此 传统 教材 受 篇 幅 限 制 只 
能 介绍 一 些 实验 性 的 编译 器 ， 代 码 生成 也 通常 面向 较 高 的 级 别 ， 以 避免 与 具体 的 机 器 相关 。 

因此 ,许多 教师 要 求学 生 完成 接近 实际 的 编译 器 项 目 ， 使 学 生 获 得 实践 经 验 。 通 常 ， 教 师 
必须 从 头 开始 编写 编译 程序 ， 而 学 生 复制 其 中 的 大 部 分 ， 修 改 后 利用 其 余 的 部 分 。 然 而 ， 由 于 
编译 器 只 是 实验 性 的 ， 文 档 往往 显得 不 够 充分 ， 这 种 情形 使 教学 双方 都 不 满意 。 本 书 通过 对 一 
个 实际 编译 器 的 大 部 分 程序 进行 文档 说 明 ， 并 提供 源 代 码 ， 为 教师 提供 了 一 种 新 的 选择 。 

本 书 介绍 了 完整 的 代码 生成 器 ， 代 码 生成 面向 MIPS R3000、SPARC 和 Intel 386 及 其 后 
续 体 系 结构 等 不 同 的 平台 。 本 书 利 用 了 最 新 的 研究 成 果 ， 根据 目 标 机 器 的 紧缩 规范 (compact 
specification) 生成 代码 生成 器 。 这 些 方法 使 得 我 们 能 够 针对 多 种 机 器 展示 完整 的 代码 生成 器 ， 
这 是 其 他 书籍 无 法 做 到 的 。 通 过 介绍 多 个 代码 生成 器 ， 既 避免 了 本 书 依赖 于 单一 的 机 器 ， 又 有 
助 于 学 生 了 解 如 何 设计 可 变 目 标的 软件 。 

教师 布置 的 作业 可 以 是 增加 编译 器 接受 的 语言 特征 、 优 化 、 改 变 目标 机 器 等 。 本 书 如 果 与 
传统 教材 配合 使 用 ， 也 可 以 要 求学 生 使 用 不 同 的 算法 代替 现 有 的 模块 作为 实践 作业 。 如 采 以 实 
现 一 个 实验 编译 器 作为 实践 作业 ， 则 可 能 在 低级 基础 结构 和 重复 的 语言 特征 上 花费 大 量 的 时 
间 。 采 取 上 述 方法 ， 就 能 够 更 接近 实际 的 编译 器 工程 实践 。 本 书 的 许多 练习 都 涉及 编译 器 工程 
问题 。 

除 传统 的 编译 目的 外 ，lcc 也 有 其 他 用 途 。 例 如 ， 它 可 以 用 于 构建 一 个 C 程序 浏览 器 ,或 
者 根据 声明 来 生成 远程 过 程 调用 的 桩 函数 ( stub)， 也 能 用 于 语言 扩充 、 新 的 计算 机 体系 结构 和 
代码 生成 技术 的 实验 。 

本 书 假设 读者 熟悉 某 种 计算 机 的 C 和 汇编 语言 ， 了 解 编译 器 的 概念 ， 理 解 编译 器 的 工作 
原理 ， 同 时 要 求 读者 的 数据 结构 和 算法 知识 达到 一 般 本 科 水 平 ， 例 如 ，R. Sedgewick 所 著 的 
« Algorithms in C 》(Addison-Wesley，1990 ) 一 书 中 的 内 容 对 于 理解 lce 就 足够 了 。 
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A Retargetable C Compiler: Design and Implementation 


it = 





编译 器 可 以 将 源 代 码 翻译 成 目标 机 器 上 的 汇编 代码 或 目标 代码 。 可 变 目标 编译 器 能 够 针对 不 
同 的 目标 机 器 生成 代码 。 编 译 器 中 与 机 器 有 关 的 部 分 被 独立 成 模块 ， 针 对 不 同 的 目标 机 器 ， 这 些 
模块 可 以 方便 地 进行 蔡 换 。 

本 书 描述 了 一 个 可 变 目标 的 -ANSI C 编译 器 lcc， 重 点 介绍 其 实现 。 大 多 数 编译 器 教材 注重 于 
编译 算法 ， 只 附带 介绍 了 实验 性 的 编译 占 。 而 本 书 与 其 他 教材 不 同 ， 描 述 了 一 个 完整 的 ANSI C 
实用 编译 器 ， 包 括 针对 3 种 目标 机 器 的 代码 生成 器 。 本 书 仅 介 绍 了 lce 用 到 的 编译 理论 。 


1.1 文本 程序 


本 书 不 仅 描 述 了 lec 的 实现 全 貌 ， 其 本 身 就 是 系统 的 实现 。 针 对 文字 编程 的 noweb 系统 根据 
同一 个 文本 源 程序 生成 了 文本 和 代码 。 该 源 程 序 中 包括 了 交替 出 现 的 说 明和 带 标记 的 代码 片段 。 
代码 片段 按照 有 利于 描述 程序 的 顺序 出 现 ， 也 就 是 说 ， 本 书 说 明代 码 的 顺序 并 不 与 原来 C 语言 
序 中 的 一 样 。 程 序 noweave 以 这 种 源 程序 为 输入 ， 生 成 了 本 书 英文 版 原稿 ， 包 括 大 部 分 代码 和 所 
有 文本 。 程 序 notangle 按照 书 中 要 求 的 顺序 抽取 了 所 有 的 代码 。 
代码 片段 包括 源 代 码 和 对 其 他 代码 片段 的 引用 。 代 码 片段 的 定义 是 以 尖 括 号 括 起 来 的 标记 开始 
的 ， 例 如 下 列 代码 ; 


(a fragment label 1)= T 
sum = 0; 
for (i = 0; i < 10; i++) (increment sum 1) 

(increment sum 1)= 1 


sum += x[i]; 
这 段 代 码 的 功能 是 计算 数组 x 的 所 有 元 素 之 和 ， 其 中 <increment sum I> 显示 了 代码 片段 是 如 何 被 
引用 的 。 多 个 代码 片段 可 以 有 相同 的 名 字 ， 程序 notangle 可 以 把 这 些 名 字 相 同 的 定义 连接 成 一 段 
代码 。 对 于 这 些 连 续 的 程序 段 定 义 ， 程 序 noweave 使 用 + =i At = em: 


A 


(a fragment label 1) 十 三 1 
printf("%d\n", sum); 

程序 段 定 义 类 似 宏 定 义 ， 程 序 notangle 抽取 整个 程序 的 过 程 是 从 一 个 程序 段 开 始 的 。 如 果 其 定义 
引用 了 其 他 程序 段 ， 则 把 引用 的 程序 段 扩 展 进来 ， 如 此 重复 进行 。 

程序 段 定义 有 助 于 读者 通读 这 些 程序 。 每 个 程序 段 的 名 字 的 末尾 标 有 一 个 数字 ， 该 数字 是 这 
个 程序 段 开 始 定义 的 页 码 。 如 果 没 有 数字 ， 则 表示 该 程序 段 未 在 本 书 中 定义 。 每 个 后 续 的 定义 都 
指明 了 前 一 个 定义 ， 如 果 有 后 续 定 义 ， 还 将 指明 下 一 个 定义 。 比 如 音 指 明 当前 定义 的 前 一 个 定 
义 在 第 14 页 ，31 指明 下 一 个 定义 在 第 31 页 上 。 这 种 标志 实际 上 把 一 个 程序 段 的 所 有 定义 连 成 了 
一 个 双向 链表 ， 疝 前 指针 指向 前 一 个 定义 ， 向 后 指针 指向 下 一 个 定义 。 链 表 中 第 一 个 定义 的 疝 前 
指针 和 最 后 一 个 定义 的 向 后 指针 被 省 略 。 这 些 链 表 是 完全 的 : 如 果 一 个 程序 段 的 部 分 定义 在 某 页 
中 出 现 ， 则 可 以 通过 这 些 页 码 引用 找到 相关 的 定义 部 分 。 


2 RLF 


大 多 数 程序 段 也 指明 了 该 程序 段 在 哪些 页 中 被 使 用 ， 如 上 例 中 <increment sum> 定义 后 面 的 
数字 1， 表 明 该 程序 段 在 第 1 页 使 用 。 下 面 可 以 看 到 ， 根 程序 段 (定义 模块 的 程序 段 ) 以 及 经 常 
使 用 的 程序 段 ， 则 没有 加 这 些 标志 。 

程序 notangle 还 实现 了 C 语言 的 一 个 扩展 。 较 长 的 字符 串 文本 可 以 分 成 若干 行 ， 每 行 的 末尾 
用 下 划 线 结尾 。notangle 可 以 剔除 后 续 行 的 前 导 空 格 ， 把 各 行 连 成 一 个 字符 串 。 第 90 页 中 error 
的 第 一 个 参数 就 是 这 种 扩展 功能 的 例子 。 


1.2 ”如 何 使 用 本 书 


一 般 来 说 ， 应 该 从 前 往 后 阅读 本 书 ， 但 也 有 几 种 变通 方法 : 

。 第 5 章 介绍 了 编译 器 前 端 和 后 端的 接口 ， 这 一 章 的 内 容 尽 可 能 做 到 独立 。 

。 第 13 ~ 18 章 介绍 了 编译 器 的 后 端 。 只 要 读者 了 解 了 编译 器 前 端 和 后 端的 接口 一 仪 需 简 

单 了 解 前 面 的 章节 ， 就 可 以 直接 阅读 这 些 内 容 。 事 实 上 ， 许 多 读者 甚至 能 够 蔡 换 编译 器 
前 端 或 后 端 ， 而 不 需要 对 另 一 部 分 内 容 做 更 多 的 了 解 。 

e 第 16 ~ 18 章 介绍 了 与 3 种 目标 机 器 MIPS, SPARC, Intel 386 及 其 后 续 结构 相关 的 模块 。 
这 3 章 相互 独立 ， 读 者 可 以 阅读 其 中 的 任意 几 章 。 如 果 读 者 阅读 了 多 章 的 内 容 ， 就 会 发 
现在 内 容 上 有 一 些 重复 , 但 是 由 于 大 多 数 通用 的 代码 已 经 分 解 出 来 并 放 在 第 13 ~ 15 章 
中 介绍 ， 少 许 重 复 还 是 可 以 容忍 的 。 

本 书 的 部 分 内 容 采 取 自 底 向 上 的 方式 描述 lce。 例如， 存储 管理 、 字 符 串 和 符号 表 等 章节 介 
绍 了 一 些 最 底层 或 接近 最 底层 的 函数 ， 理 解 这 些 函数 不 需要 太 多 的 相关 知识 。 

本 书 的 另外 一 些 内 容 则 采取 自 顶 向 下 的 方式 进行 描述 。 例 如 ， 表 达 式 分 析 、 语 句 和 声明 等 章 
节 ， 从 最 顶层 开始 介绍 ,采取 自 顶 向 下 的 方式 ， 先 给 出 一 些 函 数 和 程序 段 的 使 用 及 其 功能 简介 ， 
然后 再 介绍 这 些 函 数 和 程序 段 的 细节 。 

本 书 还 有 一 些 地 方 采取 了 自 顶 向 下 和 自 底 向 上 相 结 合 的 方式 进行 介绍 。 也 许 采取 一 致 的 方式 
进行 介绍 会 更 好 ， 但 是 通常 难以 做 到 这 一 点 。 与 大 多 数 编译 器 一 样 ，lcc 包括 相互 之 间 递 归 调 用 
的 函数 。 所 以 ， 试 图 完全 先 介 绍 调用 程序 再 介绍 被 调用 程序 ， 或 者 先 介 绍 被 调用 程序 再 介绍 调用 
程序 ， 都 是 不 可 能 的 。 

有 些 程序 段 在 读 代码 之 前 解释 起 来 比较 容易 ， 而 有 些 则 在 阅读 代码 后 解释 更 容易 一 些 。 如 果 
理解 一 个 代码 段 有 困难 ， 不 妨 先 看 看 该 代码 段 前 后 的 文字 ， 可 能 会 事半功倍 。 

loc 的 大 多 数 代码 都 在 教材 中 出 现 了 ， 但 有 些 程序 段 只 是 加 以 使 用 而 并 未 给 出 定义 。 在 这 些 
程序 段 中 ， 有 些 由 于 篇 幅 限 制 被 省 略 了 ， 有 些 则 是 因为 它们 实现 的 是 语言 扩展 功能 、 可 选 的 调试 
帮助 或 重复 的 成 分 。 例 如 ， 只 要 了 解 了 处 理 C 语言 的 for 语句 的 代码 ， 处 理 do-while 语句 的 代码 
就 不 必 介 绍 得 太 多 。 唯 一 全 部 省 略 的 是 解释 lcc 对 C 语言 的 初始 化 机 制 的 处 理 ， 这 是 因为 它 既 宛 
长 乏味 ， 又 无 助 于 其 他 知识 的 理解 ， 所 以 就 省 略 了 这 部 分 内 容 。 只 使 用 而 未 给 出 定义 的 程序 段 很 
容易 识别 : 这 些 程序 段 名 字 的 后 面 没有 页 码 。 

另外 我 们 还 省 略 了 断言 。lec 包含 了 几 百 条 断言 ， 大 多 数 是 关于 参数 或 数据 结构 假设 的 断言 。 
其 中 一 个 是 assert(0)， 它 表示 程序 不 应 执行 到 该 状态 。 例 如 ， 如 果 分 支 语句 需要 确保 测试 表达 式 
的 所 有 值 都 有 相应 的 真正 的 处 理 分 支 ， 那么 ， 就 可 以 在 默认 分 支 中 加 入 assert(0)。 
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1.3 概述 


lec 能 够 把 源 程序 翻译 成 汇编 程序 代码 。 下 面 的 例子 说 明了 这 一 转换 的 各 个 阶段 ， 介 绍 了 Icc 
的 主要 组 成 和 数据 结构 。 每 一 阶段 都 把 程序 变换 成 男 一 种 表示 方式 ， 例如: 预 处 理 后 的 源 程序 、 
单词 、 树 、 无 环 有 向 图 及 这 些 图 的 序列 。 例 如 最 开始 的 源 代码 是 : 

int round(f) float f; { 


return f + 0.5; /* truncates */ 
} a 


round 没有 函数 原型 ， 所 以 参数 f 作 为 double 类 型 的 数据 传送 ，round 在 人口 处 将 其 转换 成 foat。 
然后 round 将 f 加 上 0.5， 再 把 结果 截 尾 转换 成 整数 并 返回 。 

第 一 个 阶段 是 由 C 的 预 处 理 程序 进行 宏 扩 展 、 引 入 头 文件 、 选 择 条 件 编 译 代 码 等 工作 。 虽 
然 起 源 于 UNIX 系统 ,但 目前 1cc 可 以 在 DOS 和 UNIX 系统 下 运行 。 与 许多 UNIX 编译 器 一 样 ， 
lce 使 用 独立 的 预 处 理 器 ， 并 且 预 处 理 器 作为 一 个 独立 的 进程 执行 ， 但 这 部 分 内 容 不 在 本 书 范围 
之 内 。 我 们 经 常 使 用 GNU C 编译 器 的 预 处 理 程序 。 

典型 的 预 处 理 程序 读 取 上 面 的 源 程序 并 产生 如 下 代码 : 

# 1 "sample.c” 

int round(f) float f; { 

return f + 0.5; 


} 

由 于 本 例 中 没有 使 用 预 处 理 特性 ， 所 以 预 处 理 程序 没有 其 他 效果 ， 只 是 去 除了 注解 ， 并 增加 了 一 
个 # 命令 ， 把 文件 名 和 源 代 码 的 行 号 告诉 编译 器 ， 以 便 诊 断 错误 时 使 用 。 这 段 例 子 代码 中 的 起 始 
行 号 显然 为 1， 但 是 ， 如 果 源 程序 中 包含 多 个 #include 指令 ， 预 处 理 后 每 个 被 包括 进来 的 文件 都 
用 一 对 # 指令 括 起 来 ， 指 令 中 都 包含 各 自 的 行 号 。 

预 处 理 程序 工作 完成 后 ， 编 译 如 马上 开始 工作 ， 首 先 由 词法 分 析 器 (lexical analyzer) 或 扫 
描 器 (scanner) 将 输入 的 源 程序 分 解 成 单词 (token), IA 1-1。 图 中 左边 一 栏 是 单词 编码 (token 
code)， 该 编码 是 一 个 小 的 整数 ， 右 边 一 栏 是 附加 值 ， 附 加 值 也 可 以 为 空 。 例 如 ， 关 键 字 int 的 附 
加 值 是 inttype 的 值 ， 代 表 整数 类 型 。 单 个 字符 构成 的 单词 的 编码 就 是 该 字符 的 ASCI FE, EO! 
表示 输入 结束 。 词 法 分 析 器 输出 单词 和 单词 的 定义 点 位 置 ， 并 处 理 # 指令 ， 编 译 器 的 其 他 部 分 无 
须 再 处 理 这 些 指 令 。lce 的 词法 分 析 器 将 在 第 6 章 中 介绍 。 

编译 器 的 下 一 个 阶段 是 根据 C 语言 的 语法 规则 对 单词 串 进行 分 析 ( parse)， 同 时 也 分 析 程 序 
的 语义 ( semantic) 正确 性 。 例 如 ,检查 加 法 运算 中 操作 数 的 类 型 是 否 合法 ， 以 便 进行 隐 式 的 类 
型 转换 。 在 上 面 例子 的 加 法 运算 中 , fÆ float 类 型 ，0.5 是 double 类 型 ， 这 是 合法 的 组 合 ， 所 得 
结果 为 double 类 型 ， 由 于 返回 类 型 是 int， 求 出 的 和 被 隐 式 转换 成 整数 。 

示例 源 程序 经 过 分 析 阶 段 后 ， 形 成 两 棵 抽象 语法 树 (abstract syntax tree). 见 图 1-2。 树 
中 的 每 个 节点 代表 一 个 基本 运算 。 第 一 棵 树 将 传人 的 double 类 型 的 参数 转换 成 float 类 型 。 节 
点 CINDIR+D) 从 调用 程序 中 地 址 为 &f 的 单元 (ADDRF+P) 取出 double 类 型 的 值 ， 节 点 
(CVD+F) 将 该 值 转换 成 float 值 。 节 点 (ASGN+F) 把 float 值 存 人 被 调用 程序 的 地 址 为 &f 的 单元 
(ADDRF+P)。 

第 三 棵 树 实现 了 例子 中 唯一 的 一 条 语句 ， 并 返回 一 个 整数 (RET+I)。 节 点 CINDIR+F) 从 被 
调用 程序 中 地 址 为 &f 的 单元 (ADDRF+P) 取出 float 值 ， 节 点 (CVF+D) 将 该 值 转换 成 double 
值 ， 节 点 (ADD+D) 把 该 值 加 上 double 常量 0.5 (CNST+D)， 并 将 结果 截 尾 成 整数 (CVD+I)。 


inttype 
“round” 
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图 1-1 示例 对 应 的 单词 串 


ASGN+F zhi 
ADDRF+P CVD+F ts 
INDIR+D TE 
ADDRF+P CVF+D CNST+D 
wie | 0.5 
2 INDIR+F 
caller "于 "一 > double | 
ix at ge ADDRF+P 


图 1-2 示例 对 应 的 抽象 语法 树 


这 些 树 使 得 隐 含 在 源 代码 中 的 一 些 事实 更 加 清晰 。 例 如 ， 上 面 的 类 型 转换 在 源 代码 中 并 没有 
显 式 给 出 ,但 是 在 ANSI 标准 中 是 明确 规定 了 的 ， 所 以 在 树 中 出 现 了 类 型 转换 指令 。 此 外 ， 树 中 
明确 给 出 了 所 有 操作 的 类 型 ， 例 如 ， 源 代码 中 的 加 法 操作 并 没有 显 式 给 出 类 型 ， 但 是 在 树 中 与 其 
对 应 的 节点 具有 明显 的 类 型 信息 。 这 些 语义 分 析 是 lcc 的 分 析 器 通过 识别 输入 完成 的 ， 我 们 将 在 
第 7 章 到 第 11 章 进行 介绍 。 

根据 图 1-2 中 的 树 ，lcc 生成 图 1-3 所 示 的 无 环 有 向 图 (directed acyclic graph， 简 称 dag), fy 
号 为 1 和 2 的 dag 是 从 图 1-2 中 的 树 转换 而 来 的 。 操 作 符 标 记 中 不 再 有 +。 把 树 变换 成 dag， 使 
得 一 些 隐 含 的 事实 明显 化 。 例 如 ， 树 中 CNST+D 节点 的 常量 0.5， 在 dag 中 成 为 名 字 为 “2” 的 
静态 变量 的 值 ，CNST+D 操作 符 被 替换 成 取 地 址 操作 符 ADDRGP 和 取 值 操作 符 INDIRD。 

1-3 中 的 第 三 个 dag， 定 义 了 名 字 为 “1” 的 标号 ， 该 标号 出 现在 round 的 末尾 ， 返 回 指令 
被 翻译 成 跳 转 到 该 标号 的 指令 ， 其 他 琐碎 的 细节 不 再 详 述 。 

在 第 12 章 中 可 以 看 到 ， 从 树 变 换 成 dag 时 ， 还 能 够 删除 相同 的 表达 式 〈 又 称 公共 子 表 达 
式 )。 例 如 ,， 若 重复 引用 某 dag 代表 的 运算 结果 ， 则 只 要 把 该 运算 结果 放 人 临时 变量 中 ， 引 用 
时 直接 使 用 这 个 临时 变量 即 可 实现 删除 公共 子 表达 式 。 本 书 介绍 的 代码 生成 器 就 采取 了 这 种 
措施 。 
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图 1-3 示例 对 应 的 dag 
这 些 dag 的 顺序 与 图 14 所 示 的 代码 表 的 执行 顺序 相同 。 列 表 的 第 一 个 人 口 是 Start， 随 
后 的 每 个 人 口 代表 round 代码 的 一 部 分 。 入 口 Defpoint 表示 源 代 码 的 位 置 ， 人 口 Blockbeg 和 
Blockend 表示 round 代码 中 复合 语句 的 边界 。 两 个 人 口 Gen 分 别 表示 执行 图 1-3 的 dag 1 和 dag 2. 
AF Label 表示 执行 dag 3。 代 码 表 将 在 第 10 章 和 第 12 章 中 做 详细 介绍 。 
Start 
Defpoint 22,1,"sample.c”™ 
£ Gen@ 


‘a Blockbeg 5 





Defpoint 8,2,"sample.c™ 
GQ Gen) 
& Blockend 
fn Label ©) 
Defpoint 0,3,"sample.c" 
图 1-4 示例 对 应 的 代码 表 


JERY, lce 的 与 目标 机 器 无 关 的 前 端 将 程序 的 表示 结构 传递 给 后 端 ， 由 后 端 把 这 些 结构 翻译 
成 目标 机 器 上 的 汇编 代码 。 我 们 可 以 针对 特定 机 器 手工 编写 一 个 后 端 程序 实现 代码 的 生成 ， 这 种 
代码 生成 器 通常 与 目标 机 器 紧密 相关 ， 如 果 目 标 机 器 发 生变 化 ， 则 需要 全 部 进行 更 改 替 换 。 

本 书 介绍 的 代码 生成 器 由 表 和 树 文法 驱动 ， 在 第 13 章 到 第 18 章 中 我 们 将 看 到 树 文法 能 够 把 
dag 转换 成 指令 序列 。 这 种 组 织 方式 使 得 编译 器 的 后 端 相 对 于 目标 机 器 具有 部 分 的 独立 性 ， 使 得 
面 对 新 的 目标 机 器 时 ， 我 们 只 需要 替换 后 端的 一 部 分 。 后 端的 其 他 部 分 也 可 以 移 人 前 端 ， 以 期 支 
持 针对 不 同 目标 机 器 的 代码 生成 器 ， 但 这 种 方法 会 使 得 lcc 不 能 方便 地 使 用 其 他 类 型 的 代码 生成 
器 ， 所 以 我 们 没有 采取 这 种 方法 。 

代码 生成 器 以 对 dag 加 注释 的 方式 进行 工作 。 首 先 为 每 个 节点 选择 一 个 汇编 代码 模板 一 一 
一 条 指令 或 一 个 操作 数 。 从 图 1-5 中 可 以 看 到 ， 示 例 dag 用 386 及 其 兼容 、 后 续 X86 平台 的 汇 
编 代 码 进 行 注释 。“ %n” 表 示 第 n 个子 节点 的 汇编 代码 ， 最 左 子 节点 的 编号 为 0 ;“% 字母 ” 表 
示 该 节点 所 指向 符号 表 的 人 口 。 图 中 ， 实 线 连接 了 指令 ， 而 虚线 连接 部 分 指令 ， 如 将 地 址 模式 
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和 使 用 它 的 指令 连接 起 来 。 例 如 ， 在 第 一 个 dag 1, ASGNF Ail INDIRD 节点 标 有 指令 ， 而 两 个 
ADDRGP 节点 标 有 它们 的 操作 数 。 同 样 ， 节 点 ASGNF ( 见 图 1-3 ) 的 右 子 节 点 CVDF 消失 了 ， 
因为 ASGNE 对 应 的 指令 具有 类 型 转换 和 赋值 的 双重 功能 ， 所 以 节点 CVDF 被 删除 了 。 第 14 章 
介绍 了 指令 选择 机 制 和 lbug 程序 ， 该 程序 能 够 根据 紧缩 规范 (compact specification) 生成 代码 。 


© ASGNF © RETI © LABELV 
"fstp dword ptr *0\n" “# ret\n" "%a:\n" 
a 
ADDRFP INDIRD CVDI 
"%a[ebp]" “fld qword ptr %0\n" “sub esp,4\n 
> fistp dword ptr O[esp]\n 
Y pop %c\n" 
ADDRFP 
“"%a [ebp] " 
ADDD 
"fadd%1\n" 
a 
CVFD INDIRD 
"# nop\n” “ qword ptr %0" 
v 
INDIRF ADDRGP 
"fld dword ptr %0\n" “%a" 
y 
ADDRFP 
"%a [ebp]" 


图 1-5 选择 指令 之 后 


下 面 为 不 了 解 X86 汇编 代码 的 读者 做 一 些 说 明 。fld 指令 将 一 个 浮 点 值 装 入 栈 ; fstp 指令 将 
栈 顶 的 值 弹 出 并 存储 ; fistp 指令 也 类 似 ， 只 是 将 弹出 的 值 截 尾 变换 成 整数 再 存储 ; fadd 弹出 两 个 
值 ， 再 将 它们 的 和 压 人 栈 ; pop 将 一 个 整数 值 弹出 栈 ， 存 和 人 寄存器。 详细 说 明 参 见 第 18 FE 

在 编译 器 完成 下 一 步骤 后 ， 汇 编 代 码 会 更 容易 理解 ， 在 这 一 步骤 中 ， 编 译 器 将 按照 指令 产生 
的 顺序 将 节点 连接 起 来 ， 并 为 需要 寄存 器 的 指令 进行 寄存 器 的 分 配 。 图 1-6 说 明了 示例 程序 线性 
化 后 的 指令 序列 和 寄存 器 分 配 情况 。 因 为 此 时 指令 模板 中 的 操作 数 并 未 完全 被 蔡 换 《这些 工 作 随 
后 进行 )， 图 1-6 有 一 点 虚构 成 分 ， 放 在 这 里 只 是 为 了 便于 读者 理解 。 


Tr Gre ba 


#nop\n 
fadd qword ptr %a\n 5 
sub esp, 4\nfistp dword ptr O[esp]\npop %c\n 


# ret\n 
图 1-6 “分 配 寄存 器 之 后 
与 许多 源 于 UNIX 系统 的 编译 器 一 样 ，lce 产生 汇编 代码 ， 还 需要 和 另外 的 汇编 器 和 连接 程 
序 配 合 使 用 。 与 本 书 的 后 端 配合 工 作 的 是 ， MIPS 和 SPARC 上 的 汇编 器 、DOS 下 的 微软 MASM 
6.11 和 Borland 的 Turbo 汇编 器 4.0. lee 会 为 示例 程序 生成 图 1-7 所 示 的 汇编 代码 。 图 中 用 横 线 





Gl n 7 


将 代码 划分 成 若干 部 分 ， 第 一 部 分 是 为 所 有 的 程序 都 会 生成 的 汇编 指示 命令 样板 。 第 二 部 分 是 
round 的 入 口 指令 序列 ，4 条 push 指令 用 于 保存 寄存 器 的 值 ，mov 指令 为 本 次 调用 round 建立 帧 
指针 。 


-486 

.model small boilerplate 
extrn —__turboFloat:near 

extrn —__setargv:near 

public _round 

-TEXT segment 


mov ebp,esp 


fld qword ptr 20[ebp] 

fstp dword ptr 20[ebp] 

fld dword ptr 20[ebp] 

fadd qword ptr L2 

sub esp,4 

fistp dword ptr O[esp] 

pop eax 

5 A 

mov esp,ebp 

pop ebp exit 

pop edi sequence 
pop esi 

pop ebx 

ret 

_TEXT ends 

-DATA segment 

align 4 

L2 label byte initialized data 
dd 00H, 03fe00000H & boilerplate 
_DATA ends 

end 





图 1-7 为 示例 程序 生成 的 汇编 代码 


第 三 部 分 代码 是 由 图 1-5 中 带 注释 的 dag 填充 了 符号 表 数 据 后 产生 的 。 第 四 部 分 是 round 的 
出 口 指令 序列 ， 恢 复 人 口 指令 序列 保存 寄存 器 的 值 ， 并 返回 到 调用 程序 。L1 是 出 口 指令 序列 的 
标号 。 最 后 一 部 分 包括 初始 数据 和 结束 样板 (concluding boilerplate)。 对 于 round 来 说 ， 这 些 数 
据 包 括 常 量 0.5，L2 是 变量 的 地 址 ， 该 变量 初始 化 成 000000003fe00000,s， 这 是 双 精 度 常 量 0.5 
的 IEEE 64 位 浮 点 数 表 示 形 式 。 


1.4 设计 
对 于 lcc 来 说 ， 并 没有 一 个 独立 的 设计 阶段 。lce 刚 开始 只 是 针对 C 语言 的 一 个 子 集 的 编译 
器 ， 所 以 其 最 初 的 设计 目标 非常 有 限 ， 仅 定位 于 针对 一 般 的 编译 器 实现 特别 是 代码 生成 的 教学 的 
需要 。 即 使 后 来 lec 演化 成 了 适 于 实用 的 ANSIC 编译 器 ， 这 一 设计 目标 仍然 没有 大 的 改变 。 
计算 的 代价 越 来 越 低 ， 但 是 程序 员 的 代价 越 来 越 高 。 如 果 我 们 被 迫 对 设计 方案 做 出 选择 ， 则 
通常 会 选择 那 种 在 保证 产生 令 人 满意 的 代码 的 基础 上 ， 能 节省 开发 时 间 的 设计 方案 。 这 种 选择 保 
证 了 lee 简单 、 快 速 ， 但 可 能 在 优化 上 比 其 他 编译 器 略为 进 色 。lec 面向 多 目标 机 器 ， 应 尽 可 能 保 
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持 系统 的 简单 性 。 我 们 将 与 目标 机 器 无 关 的 代码 独立 出 来 ， 使 得 与 目标 机 器 相关 的 代码 尽 可 能 简 
单 。 我 们 在 设计 和 实现 上 花费 了 相当 大 的 精力 ， 使 得 lcc 更 易于 移植 到 新 的 目标 机 器 上 。 

由 于 只 有 两 个 开发 者 ， 时 间 有 限 ，lcc 必须 简单 ， 以 节约 开发 时 间 并 且 易 于 后 续 完 善 修改 。 
同时 ， 通 过 本 书 ， 读 者 可 以 看 到 即使 编写 一 个 简单 的 编译 器 也 是 很 困难 的 。 

lec 比 大 多 数 其 他 ANSI C 编译 器 更 小 、 更 快 。 尽 管 有 时 在 编译 器 设计 时 会 忽视 编译 的 速度 ， 
但 快速 仍 是 广 为 欣 赏 的 特点 ， 用 户 经 常 把 速度 作为 他 们 使 用 lce 的 原因 之 一 。 快 速 编译 本 身 并 不 
是 设计 的 目标 ， 它 是 追求 简单 特别 是 注意 编译 器 中 严重 影响 速度 的 组 成 部 分 的 实现 的 自然 结果 。 
lec 的 词法 分 析 (参见 第 6 章 ) 和 指令 选择 (参见 第 14 章 ) 都 特别 快 ， 对 整个 系统 的 速度 贡献 
最 大 。 

lee 能 够 生成 相当 高 效 的 目标 代码 ， 它 以 产生 好 的 本 地 代码 为 设计 目标 ， 而 其 他 优化 编译 器 
所 具有 的 全 局 优化 ， 不 在 lcc 的 设计 目标 之 中 。 大 多 数 现代 的 编译 器 ， 特 别 是 CPU 供应 商 开 发 的 
编译 器 ， 必 须 尽 可 能 采取 优化 措施 ， 以 期 在 性 能 测试 中 突出 他 们 的 机 器 。 这 些 编译 器 很 复杂 ， 一 
般 需 要 数 十 人 组 成 的 小 组 进行 开发 。 尽 管 这 些 高 度 优化 的 C 编译 器 在 启用 优化 选项 时 产生 的 代码 
H lec 产生 的 代码 更 高 效 ， 但 数 百名 使 用 lcc 作为 日 常 主 要 C 编译 器 的 开发 者 发 现 ， 对 于 大 多 数 
应 用 来 说 ，lcc 产生 的 代码 已 经 足够 快 了 ， 同 时 ， 由 于 lec 本 身 的 速度 非常 快 ， 也 帮助 他 们 节约 了 
许多 时 间 。 另 外 ， 系 统 开发 者 如 果 需 要 对 loc 进行 修改 ， 则 会 发 现 cc 很 容易 理解 。 

编译 器 并 非 存在 于 真空 中 ， 它 必须 与 预 处 理 程序 、 连 接 程 序 、 装 配 程序 、 调 试 程序 、 汇 编程 
序 和 操作 系统 配合 工作 ， 而 所 有 这 些 软件 又 依赖 于 目标 机 器 。 要 想 处 理 好 所 有 这 些 软件 中 与 目标 
相关 的 部 分 是 不 现实 的 。lcc 的 设计 把 这 些 不 利 的 影响 尽 可 能 降 到 最 低 点 。 比 如 ， 依 赖 于 目标 的 
代码 生成 器 产生 汇编 语言 代码 ， 并 需要 汇编 程序 帮 它 们 转换 目标 代码 ; lcc 还 依赖 于 一 个 独立 的 
” 预 处 理 程序 。 这 些 设计 方法 并 非 没有 风险 ， 比 如 ， 供 应 商 提供 的 汇编 程序 存在 着 一 些 我 们 无 法 控 
制 和 回避 的 错误 ， 给 我 们 带 来 了 很 大 的 困难 。 

一 个 更 为 重要 的 例子 是 ， 必 须根 据 目 标 机 器 的 约定 产生 调用 代码 序列 。 这 对 于 lcc 是 必须 实 
现 的 ， 只 有 这 样 才能 利用 现 有 的 库 。 当 然 ， 提 供 标准 的 ANSI C 库 可 以 简化 这 方面 的 任务 , 但 即 
使 lcc 提供 自己 的 库 ， 它 也 仍然 需要 调用 与 目标 相关 的 例 程 ， 比 如 提供 系统 调用 的 例 程 。 调 用 第 
三 方 的 库 也 有 这 些 限 制 ， 这 种 方式 日 益 重 要 ， 而 且 提供 的 库 通 常 都 是 目标 代码 形式 。 

产生 兼容 的 代码 对 于 Ice 中 与 目标 无 关 的 前 端 以 及 与 目标 相关 的 后 端的 设计 都 有 明显 的 影响 。 
在 第 5 章 中 可 以 看 到 ， 前 端 和 后 端的 接口 中 有 很 大 一 部 分 复杂 性 是 直接 源 于 这 些 设计 上 的 限制 和 
追求 简单 性 、 可 变 目 标 性 的 原则 之 间 的 冲突 。 接 口中 处 理 传 递 和 返回 结构 的 机 制 就 是 一 个 例子 。 

lce 的 前 端 大 约 有 9000 行 代码 ， 每 种 与 目标 相关 的 代码 生成 器 有 700 行 代 码 ， 还 有 约 1000 
行 与 目标 无 关 的 后 端 代码 被 所 有 的 代码 生成 器 共享 。 

除了 个 别 例外 ，lcc 的 前 端 一 般 都 使 用 成 熟 的 编译 技术 。 如 上 一 节 中 介绍 的 ， 前 端 进行 词法 、 
句法 和 语义 分 析 ， 它 也 删除 公共 子 表达 式 (参见 第 12 章 )、 进 行 常量 折 又 、 实 现 许 多 简单 的 与 机 
器 无 关 的 转换 ， 以 改进 本 地 代码 的 质量 (参见 第 9 章 )， 许 多 改进 都 是 简单 地 对 树 进行 转换 ， 以 期 
生成 更 好 的 代码 。 前 端 还 对 循环 、switch 语句 进行 优化 ， 以 产生 高 效 代 码 (参见 第 10 章 )。 

lec 的 词法 分 析 器 和 递归 下 降 分 析 器 都 是 通过 手工 编写 的 。 使 用 编译 程序 构造 工具 ， 如 利用 分 
析 器 生成 器 ， 可 能 是 一 条 实现 这 些 模 块 的 更 为 现代 的 途径 ， 但 是 如 果 使 用 这 些 工 具 ， 将 使 得 lee 依 
更 于 一 些 特定 的 工具 。 相 对 于 lcc 刚 面 世 时 ， 现 在 看 来 这 种 依赖 性 已 经 不 算 什 么 问题 了 ， 但 是 ， 仍 
然 没 有 发 现 有 什么 必要 改变 这 种 工作 方式 。 理 论 上 ， 使 用 这 些 工 具 会 使 得 日 后 的 改进 和 纠 错 变 得 
简单 ， 但 是 ， 对 于 ANSI C 这 种 标准 语言 来 说 ， 适 应 变化 的 需求 并 不 突出 ， 系 统 的 词法 和 语法 错 
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误 也 非常 少 。 事 实 上 ，lecec 的 代码 中 大 约 不 到 15% 是 关于 分 析 的 ， 并 且 这 部 分 程序 的 错误 率 也 可 
以 忽略 不 计 。 尽 管 分 析 在 理论 上 的 地 位 非常 突出 ， 但 是 在 leo 和 其 他 编译 器 中 只 是 相对 较 小 的 模 
块 ， 语 义 分 析 和 代码 生成 才 是 主要 的 模块 ， 占 了 代码 的 大 部 分 ， 而 大 部 分 错误 也 出 现 于 此 。 

后 端 是 loc 最 令 人 感 兴趣 的 模块 ， 原 因 之 一 就 是 它 体现 了 我 们 旨 在 提高 可 变 目 标 能 力 的 设计 
选择 。 就 可 变 目 标 来 说 ， 适 应 将 来 的 变化 (每 种 新 的 目标 机 器 ) 的 能 力 是 非常 重要 的 。 由 于 代码 
生成 中 的 错误 几乎 肯定 会 发 生 ， 改 变 目 标的 过 程 对 于 改正 代码 的 出 错 必须 是 相对 简单 的 。 整 个 
lec 中 有 许多 针对 可 变 目 标 性 的 设计 上 的 考虑 ， 其 中 最 为 重要 的 有 两 个 : 

第 一 ， 后 端 使 用 了 代码 生成 器 产生 器 lburg， 该 产生 器 可 以 根据 紧缩 规范 产生 代码 生成 程序 。 
这 些 规范 描述 了 dag 如 何 映射 到 指令 或 指令 的 一 部 分 (参见 第 14 章 )。 由 于 lburg 完成 了 大 多 数 
枯燥 的 工作 ， 这 种 方法 简化 了 编写 代码 生成 器 、 生 成 优化 的 本 地 代码 等 工作 ， 也 有 助 于 避免 错 
误 。 本 书 提供 了 一 个 lburg 的 规范 ， 针 对 新 目标 的 规范 可 以 在 此 基础 上 设计 ， 因 此 ， 改 变 目 标的 
过 程 无 须 从 最 基本 的 工作 做 起 。 

第 二 ， 只 要 可 能 ， 一 些 明显 依赖 于 目标 机 器 的 函数 尽 可 能 移 到 前 端 实现 。 例 如 ， 前 端 完全 实 
HT switch 语句 ， 通 过 综合 运用 移 位 (shifting) 和 掩 码 (masking) 的 组 合 实现 了 对 位 域 的 访问 。 
这 样 做 ， 避 免 了 使 用 一 些 针对 位 域 访 问 和 switch 语句 的 特殊 指令 ， 而 支持 这 些 指令 的 目标 机 器 越 
来 越 少 ; 简化 改变 目标 的 工作 更 为 重要 。 前 端 还 能 完全 实现 传递 和 返回 结构 ， 为 此 采用 了 一 些 在 
依赖 于 目标 机 器 的 调用 约定 中 经 常 使 用 的 技术 。 这 些 功能 都 可 以 通过 接口 选项 进行 控制 ， 因 此 ， 
对 于 一 些 目标 机 器 ， 后 端 可 以 通过 设置 这 些 选 项 ， 忽 略 代码 生成 在 这 些 方 面 的 考虑 。 

虽然 leo 的 总 体 设计 目标 并 没有 随 着 其 发 展 而 有 大 的 变化 ， 但 是 实现 这 些 目标 的 方法 却 经 常 
改变 。 大 多 数 改变 是 把 更 多 的 功能 移 人 前 端 。switch 语句 就 是 一 个 例子 。 在 lce 的 早期 版 本 中 ， 
代码 生成 器 的 接口 包括 由 后 端 特殊 提供 的 一 些 函数 ， 这 些 函 数 为 switch 语句 产生 选择 代码 。 随 着 
新 目标 的 增加 ， 我 们 发 现 ， 这 些 函 数 的 新 版 本 几乎 与 原来 已 有 目标 中 的 版 本 完全 相同 。 这 种 经 验 
显示 ， 只 要 对 设计 做 比较 简单 的 改变 就 可 以 把 所 有 这 些 代码 移入 前 端 。 这 样 做 需要 改变 所 有 已 有 
的 后 端 ， 但 是 这 些 改变 会 移 走 部 分 代码 ， 使 得 将 来 的 新 目标 的 后 端 变 得 更 简单 。 

最 近 所 做 的 最 重要 的 设计 变更 包括 Ice 的 打包 方式 。 先 前 lcc 只 有 一 个 后 端 ， 即 针对 目标 机 
器 X 的 后 端 和 前 端 结合 在 一 起 形成 了 一 个 lece 实例 ， 该 实例 在 X 上 运行 并 生成 和 上 的 代码 。 大 
多 数 loo 的 后 端 能 够 为 多 个 操作 系统 产生 代码 。 例 如 ，MIPS 后 端 可 以 为 MIPS 芯片 的 计算 机 产生 
代码 ， 操 作 系 统 包 括 DEC 的 Ultrix 和 SGI AY 耻 芭 ， 可 以 构成 两 个 1cc 的 实例 。N 个 目标 机 器 和 
M 个 操作 系统 需要 N x M 个 lcc 实例 才能 完全 满足 ， 每 个 实例 都 是 根据 目标 机 器 和 操作 系统 对 原 
来 的 模块 做 少许 不 同 的 修改 而 得 到 的 。 即 使 是 较 小 的 N 和 M， 构 建 NxM 个 编译 器 也 是 非常 枯 
燥 的 ， 而 且 容易 出 错 。 

在 为 本 书 开发 的 Ico 版 本 中 ,我 们 改变 了 代码 生成 器 的 接口 (将 在 第 5 章 中 介绍 )， 使 得 把 所 
有 后 端 结合 到 一 个 程序 中 成 为 可 能 。 任 意 一 个 lcc 的 实例 都 是 一 个 交叉 编译 器 (cross-compiler)， 
也 就 是 说 ， 它 能 为 任何 目标 机 器 生成 代码 ， 而 不 论 该 机 器 上 运行 的 操作 系统 是 什么 。 通 过 命令 行 
选项 可 以 选择 需要 的 目标 。 这 种 设计 方法 把 所 有 与 目标 相关 的 数据 封装 在 一 个 结构 中 ,根据 选 项 
来 选择 相应 的 结构 ， 前 端 通过 这 些 结构 和 后 端 进行 通信 。 这 种 变化 需要 修改 所 有 业已 存在 的 后 
端 ， 但 是 这 种 修改 只 新 增 了 少量 的 代码 。 这 些 努 力 是 非常 值得 的 : 现在 只 需要 M 个 Ico SEB, FF 
且 它 们 都 是 根据 同一 组 模块 构造 而 成 的 。 同 时 错误 也 更 容易 被 发 现 ， 通 常 错误 在 所 有 面向 不 同 目 
标的 lce 实例 中 都 会 出 现 ， 可 能 包括 那些 专门 用 于 帮助 诊断 错误 的 目标 。 如 果 节 约 空间 变 得 非常 
重要 ， 我 们 也 可 以 构建 一 个 单 目标 的 lee 实例 。 
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从 Ice 的 源 代码 中 可 以 看 到 数 百 种 设计 上 的 选择 ， 这 些 选 择 在 实现 其 他 各 式 各 样 的 软件 时 也 
必须 加 以 考虑 。lcc 和 本 书 的 源 代码 存放 在 noweb 文件 中 ， 文 本 与 代码 相间 ， 就 像 本 书 一 样 。 代 
码 是 从 lce 的 模块 中 抽取 出 来 的 。 表 1-1 说 明了 本 书 各 章 与 程序 模块 的 对 应 关系 ， 并 按照 其 主要 
功能 将 各 模块 进行 了 分 组 。 有 一 些 章 的 对 应 是 一 对 一 的 ， 有 一 些 章 对 应 多 个 模块 ， 也 有 和 较 大 的 模 
块 分 在 了 3 章 中 进行 介绍 。 

ü 表 1-1 章 和 模块 的 关系 


功能 章 头 文件 模块 
公用 定义 1 ch 
2 alloc.c string.c 
3 sym.c 
基本 部 分 和 数据 结构 
4 types.c 
list.c 
5 ch bind. 
代码 生成 接口 . sei PERR 
null.c Symbolic.c 
VO 和 词法 分 析 6 token.h input.c lex.c 
output.c 
7 error.c 
8 expr.c tree.c 
= m 9 enode.c expr.c simp.c 
语法 分 析 和 语义 分 析 
10 stmt.c 
11 decl.c main.c 
init.c 
中 间 代 码 生成 12 dag.c 
调试 与 执行 剖面 event.c trace.c 
prof.c profio.c 
与 目标 无 关 的 指令 13 config.h 
选择 和 寄存 器 分 配 13, 14, 15 gen.c 
16 mips.md 
代码 生成 17 sparc.md 
18 x86.md 


没有 对 应 章节 编号 的 模块 在 本 书 中 未 做 介绍 。list.c 实现 了 练习 2.15 描述 的 列表 处 理 函 数 ， 
output.c 处 理 输出 函数 ，init.c 分 析 和 处 理 C 的 初始 化 机 制 ，eventc 实现 了 8.5 节 中 描述 的 事件 钩 
F, trace.c 产生 跟踪 函数 调用 和 返回 的 代码 ，profc 和 profio.c 产生 执行 剖面 (profiling) 代码 。 
为 方便 起 见 ， 每 章 都 对 其 模块 的 实现 进行 了 说 明 ， 程 序 段 的 形式 如 下 : 
(M10)= 
#include "c.h" 
(M macros) © 
(M types) 
{M prototypes) 
(M data) 
(M functions) 


其 中 M 是 模块 名 ， 如 alloc.c. <M macros>, <M types> 和 <M prototypes> 定义 了 本 模块 使 用 的 宏 、 
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类 型 和 函数 原型 声明 。<M data 和 <M functions> 包括 了 外 部 的 和 静态 的 数据 及 函数 的 定义 (不 是 
声明 )。 空 的 段 可 以 省 略 。 给 定 了 模块 名 ， 如 alloc.c，notangle 就 能 抽取 该 模块 ， 生 成 上 面 形式 的 
程序 段 及 其 使 用 的 程序 段 ， 所 有 这 些 程序 段 组 成 了 该 模块 的 代码 。 

上 面 的 程序 段 中 没有 页 码 ， 这 是 因为 这 些 程序 段 使 用 非常 频繁 ， 没 必要 列 出 一 长 串 的 页 码 ， 
但 仍然 定义 了 程序 段 向 前 和 向 后 的 指针 。 


1.5 公共 声明 

每 个 模块 都 说 明了 输出 哪些 标识 符 供 其 他 模块 使 用 ， 输 出 标识 符 的 声明 通过 下 列 程序 段 给 
出 ; <M typedefs>, <M exported macros> <M exported types>, <M exported data> 和 <M exported 
functions>， 其 中 M 是 模块 和 名。 头 文件 ch 把 所 有 模块 中 的 所 有 这 些 程序 段 进行 集中 声明 ， 只 是 . 
在 程序 段 定义 中 不 包括 M， 其 他 定义 与 每 个 模块 类 似 。 因 此 所 有 的 模块 只 要 包括 ch， 就 可 以 使 
用 其 他 模块 说 明 的 标识 符 。 与 上 节 中 的 程序 段 相 似 ， 出 于 相同 的 原因 ， 这 些 程序 段 也 没有 给 出 
页 码 。 


(ch11)= 
(exported macros) 
(typedefs) 
#include “config.h" 
(interface 59) 
(exported types) 
(exported data) 
(exported functions) 


头 文件 config.h 定义 了 <interface> 中 使 用 的 与 后 端 相 关 的 类 型 ， 参见 第 5 章 。c.h 定义 了 lec 
的 全 局 结构 和 部 分 全 局 常量 。 
lcc 可 以 用 ANSI 前 的 编译 器 ( pre-ANSI compiler) 进行 编译 。 目 前 ， 还 有 许多 这 样 的 ANSI 
前 编译 器 ， 因 此 需要 小 心地 维护 与 它们 的 兼容 性 。ANSI 标准 增加 了 原型 ， 这 对 于 查 错 非常 有 帮 
助 ， 我 们 可 以 随时 利用 这 些 原型 。 下 面 的 程序 段 取 自 output.c， 它 说 明了 lee 是 如 何 工作 的 : 
(output.c exported functions) = 12 
extern void outs ARGS((char *)); 


(output.c functions) = 2 
void outs(s) char *s; { 
char *p; 
for (p = bp; (*p = *s++) != 0; p++) 
bp = p; 
if (bp > io[{fd]->limit) 
outflush(); 


函数 定义 忽略 了 原型 ， 因 此 老 的 编译 器 进行 直接 编译 。 函数 声明 出 现在 函数 定义 之 前 ， 把 完 
整 的 ANSI 参数 类 型 列表 作为 参数 交 给 宏 ARGS, ANSI 编译 器 必须 预先 定义 STDC, WFE 
MY _STDC_, ARGS 则 产生 该 类 型 列表 ， 和 否则， 忽略 该 声明 。 


(c.h exported macros) = 12 
#ifdef _ STDC x 
#define ARGS(list) list 
#else 


#define ARGS(list) O 
#endif 
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对 于 outs Hii, ANSI 前 编译 器 认为 其 函数 声明 是 : 
extern void outs (); 


而 lec 和 其 他 ANSI C 编译 器 认为 其 函数 声明 是 : 


extern void outs (char *); 


由 于 outs 的 声明 出 现在 定义 之 前 ，ANSI 编译 器 处 理 定义 时 必须 像 定义 中 已 经 包括 了 原型 一 样 ， 
为 所 有 对 outs 的 调用 进行 参数 合法 性 检查 。 

ANSI 也 会 改变 可 变 参 数 ( variadic) 函数 。 宏 va start 把 最 后 声明 的 参数 作为 自己 的 参数 ， 
varargs.h 变 成 stdarg.h: 


> 


一 
Lh 
«&S 


(c.h exported macros) += 
#ifdef _ STDC__ 
#include <stdarg.h> 
#define va_init(a,b) va_start(a,b) 
#else 
#include <varargs.h> 
#define va_init(a,b) va_start(a) 
#endif 


ANSI C 中 可 变 参数 函数 的 定义 也 有 所 不 同 。ANSIC 用 定义 
void print(char *fmt, ...) £ ... } 
代替 ANSI C 前 编译 器 的 定义 : 
void print(fmt, va_alist) char *fmt; va_dcl; { ... } 
lec 的 宏 VARARGS 根据 _STDC “的 设置 ， 获 得 ANSI 参数 列表 或 ANSI 前 参数 列表 : 


(ch exported macros) += i 3 
#ifdef _ STDC__ 
#define VARARGS(newlist,oldlist,olddcls) newlist 
#else 
#define VARARGS(newlist,oldlist,alddcls) oldlist olddcls 
#endif 


output.c 中 print 的 定义 说 明了 如 何 使 用 ARGS、va_init 和 VARARGS. 


(output.c exported functions) += 11 73 
extern void print ARGS((char *, ...)); 
(output.c functions) += fi 


void print VARARGS((char *fmt, ...), 
(fmt, va_alist),char *fmt; va_del) { 
va_list ap; 


va_init(ap, fmt); 
vprint(fmt, ap); 
va_end(ap); 

} 
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这 个 定义 略 显 嘿 唆 ， 因 为 同样 的 信息 用 两 种 不 同 的 形式 给 出 ,但 是 ， SoA Fe 
VARARGS， 所 以 也 没有 必要 做 改进 。 
ch 也 包含 了 一 些 一 般 用 途 的 宏 ， 这 些 宏 在 其 他 地 方 使 用 。 


(c.h exported macros) += i 3 
#define NULL ((void*)0) 


NULL 代表 空 指针 ， 是 不 依赖 于 机 器 的 表达 式 ， 在 整数 和 指针 的 存储 空间 大 小 不 相同 的 情况 下 , f 
(NULL) 传递 一 个 正确 的 指针 ， 如 果 f 没 有 原型 ，f(0) 传递 的 字 节 数 就 可 能 不 对 。lcc 产生 的 代码 
假设 指针 作为 无 符号 整数 存放 。 然 而 ， 即 使 某 些 编译 器 不 支持 这 一 假设 ， 即 指针 所 需 的 存储 空间 
大 于 整数 的 空间 ，lec 仍然 能 够 被 这 些 编译 器 编译 。lec 在 调用 时 使 用 NULL， 这 样 即 使 在 指针 占 
的 空间 比 无 符号 整数 大 的 环境 下 也 不 会 出 错 。 所 以 在 这 些 环境 中 lcc 仍然 可 以 被 编译 ， 也 可 以 作 
为 交叉 编译 需 来 使 用 。 

(c.h exported macros) += 


#define NELEMS(a) (Cint)(sizeof (a)/sizeof ((a)[0]))) 
#define roundup(x,n) (((x)+((n)-1))&(~((n)-1))) 


NELEMS(a) 给 出 了 数组 a 的 元 素 的 数目 ，roundup(x,n) 返回 离 x 最 近 的 n 的 倍数 ,n 是 2 AYE. 


1.6 语法 规范 
本 书 使 用 文法 grammar) 来 描述 语法 〈syntax)， 例 如 C 的 词法 结构 、 语 法 和 lec 的 代码 生成 
器 产生 器 lburg 使 用 的 规范 。 
文法 定义 了 一 个 语言 ， 语 言 由 一 组 句子 组 成 ， 句 子 由 字母 表 中 的 符号 组 成 ， 这 些 符号 称 为 终 
结 符 (terminal symbol) 或 单词 〈token)。 文 法 规则 ， 也 称 产生 式 ， 定 义 了 语言 中 句子 的 结构 (B 
语法 )。 产 生 式 规定 了 如 何 从 非 终结 符 (nonterminal symbol) 通过 反复 利用 规则 对 非 终结 符 进 行 替 
换 而 生成 句子 。 
产生 式 说 明了 可 以 替换 一 个 非 终结 符 的 文法 符号 序列 ， 产 生 式 的 定义 由 非 终结 符 、 冒 号 、 非 
终结 符 的 替换 串 组 成 。 如 果 一 个 非 终结 符 有 多 个 蔡 换 串 ， 则 这 些 替 换 串 分 行 显示 ， 或 者 用 竖 杜 
“|” 分 隔 。 可 以 出 现 或 不 出 现 的 串 用 方 括号 ( […]) 括 起 来 ， 可 重复 0 次 或 若干 次 的 串 用 花 括 号 
(Eep 括 起 来 ， 圆 括号 用 来 分 组 ( group)。 非 终结 符 用 斜体 显示 ， 终 结 符 用 等 宽 (typewriter) F 
体 显示 。 记 号 “… 之 一 ”用 于 描述 由 终结 符 组 成 的 候选 序列 。 如 果 竖 杠 、 圆 括号 、 方 括号 和 花 括 
号 需要 作为 终结 符 出 现 ， 则 必须 用 单 引号 括 起 来 以 区 别 于 作为 产生 式 定 义 符号 的 出 现 。 
例如 ,产生 式 
expr: 
term { ( + | - ) term} 
term: 
factor { (* | / ) factor } 
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"C expr")! 
定义 了 某 语 言 的 简单 表达 式 。 非 终结 符 有 expr, term 和 factor,， 终结 符 有 ID、+、 一 、*、/、(、)。 
第 一 个 产生 式 说 明 expr 由 term 和 后 继 0 个 或 若干 个 +term 或 — term 组 成 ， 第 二 个 产生 式 类 似 于 
乘除 法 运算 说 明 ， 最 后 两 个 产生 式 说 明了 factor 由 一 个 ID 或 用 括号 括 起 来 的 expr 组 成 。 最 后 这 
两 个 产生 式 可 以 合并 成 : 
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factor: ID | '(" expr')’ 

但 是 分 行 显示 可 以 增加 可 读 性 。 
我 们 还 可 以 在 文法 中 增加 简单 的 函数 调用 ， 增 加 如 下 产生 式 : 
factor: ID '(' expr { , expr} ')' 


该 产生 式 说 明 , factor 可 以 由 ID 开头 ， 后 面 跟着 用 圆 括号 括 起 来 的 一 个 或 多 个 表达 式 组 成 的 列表 ， 
各 表达 式 之 间 用 逗号 分 隔 。 所 有 关于 factor 的 三 个 产生 式 可 以 写成 : 

factor: ID [ 'C expr{ , expr} ')']|'C' expr 
该 产生 式 说 明 ，factor 可 以 是 ID， 或 者 以 ID 开头 ， 后 面 跟着 用 圆 括号 括 起 来 的 以 逗号 分 隔 的 表 
达 式 列表 ， 还 可 以 是 用 括号 括 起 来 的 expr。 

这 种 描述 语法 规范 的 记号 也 叫 扩充 的 巴克 斯 范式 (Backus Naur form)， 简 称 EBNF. 7.1 节 中 
说 明了 如 何 使 用 EBNF 推导 出 语言 中 的 句子 。 


1.7 ”错误 


lec 是 一 个 大 型 复杂 的 程序 。 我 们 常会 发 现 一 些 错误 并 加 以 修正 。 当 我 们 开始 编写 本 书 的 时 
候 ， 一 些 错 误 已 经 暴露 出 来 ， 随 着 写作 的 进行 ， 发 现 了 更 多 的 错误 。 如 果 你 认为 你 发 现 了 错误 ， 
则 可 以 采取 如 下 措施 : 

1. 如 果 你 是 通过 研究 本 书 的 代码 发 现 错误 的 ， 你 可 能 还 没有 一 个 会 导致 该 错误 的 源 程序 ， 那 
么 你 首先 应 创建 一 个 源 程序 。 当 然 大 多 数 情况 下 ， 程 序 员 是 在 试图 编译 一 个 他 们 自己 认为 是 正确 
的 程序 时 发 现 错误 的 ， 此 时 ， 你 可 能 已 经 有 了 一 个 能 导致 该 错误 的 源 程 序 。 

2. 对 源 文件 进行 预 处 理 ， 保 存 预 处 理 的 结果 ， 抛 弃 原 来 的 代码 。 

3. 在 保证 错误 不 被 隐藏 的 前 提 下 ， 尽 可 能 化 简 你 的 程序 。 大 多 数 错误 只 需要 不 多 于 5 行 的 代 
码 就 可 以 显示 出 来 。 我 们 需要 你 化 简 程 序 ， 因 为 我 们 只 有 两 个 人 ， 而 读者 却 非常 多 。 

4. 确信 是 在 用 发 布 的 lce 版 本 处 理 源 文件 时 出 现 错误 的 。 如 果 你 修改 了 lcc， 而 该 错误 仅 出 现 
在 你 的 版 本 中 ,那么 你 必须 自己 追踪 错误 ， 即 使 最 后 发 现 错误 是 由 我 们 造成 的 ， 因 为 我 们 不 能 在 
你 的 代码 上 工作 。 

5. 对 你 的 代码 进行 注解 ， 说 明 为 什么 你 认为 lcc 是 错误 的 。 如 果 1lcc 由 于 断言 失败 而 终 
止 ， 请 告诉 我 们 终止 的 地 方 。 如 果 lce 崩溃 ， 请 尽 可 能 报告 最 后 的 调用 链 。 如 果 lcc 拒绝 一 
个 你 认为 正确 的 程序 ， 请 告诉 我 们 为 什么 你 认为 程序 是 正确 的 ， 并 在 《 The C Programming 
Language 》( Kernighan and Ritchie 1988 ) 一 书 附录 A 的 ANSI 标准 中 找到 支持 你 的 部 分 ， 或 者 在 
« C: A Reference Manual 》( Harbison and Steele 1991 ) 中 找到 相应 的 章节 ， 把 页 码 告诉 我 们 。 如 果 
lcc 生成 了 不 正确 的 代码 ， 请 在 注解 中 附带 上 错误 的 汇编 代码 ， 并 尽 可 能 标 出 错误 的 指令 。 

6. 确信 你 的 错误 还 没有 被 改正 。 最 新 的 lcc 版 本 可 以 在 ftp.cs.princeton.edu 服务 器 的 pub/Icc 
目录 下 通过 匿名 ftp 服务 得 到 。LOG 文件 记录 了 已 经 改正 的 错误 及 改正 的 时 间 。 如 果 你 报告 的 错 
误 已 被 改正 ， 你 就 可 以 找到 解决 方法 。 

7. 把 你 的 程序 以 电子 邮件 的 形式 发 往 lcc-bugs@cs.princeton.edu。 请 只 发 送 正确 的 C 程序 ， 
在 程序 注解 中 写 上 所 有 的 评述 ， 这 样 我 们 就 能 对 报告 进行 半自动 处 理 。 
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深入 阅读 

大 多 数 编译 器 教材 注重 宽度 ， 介 绍 了 各 种 编译 算法 ， 而 没有 介绍 实用 的 编译 器 ， 即 日 常用 
来 编译 实际 程序 的 编译 器 。 本 书 做 了 另 一 种 折 中 ， 牺 牲 了 教材 的 宽度 ， 而 深入 地 介绍 了 一 个 实用 
的 编译 器 。 对 “宽度 ”和 “深度 ”侧重 不 同 的 教材 可 以 相互 补充 。 例 如 ， 当 你 读 到 lee 的 词法 分 
析 器 的 时 候 ， 可 以 考虑 阅读 Aho, Sethi and Ullman ( 1986 )、Fischer and LeBlanc ( 1991 )、Waite 
and Goos (1984 )， 从 中 学 习 相 关 的 基础 理论 和 其 他 方法 。 其 他 侧重 “深度 ”的 书 还 有 Holub 
(1990 ) 及 Waite and Carter ( 1993 ). 

Fraser and Hanson ( 1991b) 介绍 了 lce 的 一 个 早期 版 本 ， 包 括 lee 编译 速度 和 生成 的 代码 运 
行 速 度 的 测试 结果 。 这 篇 论文 还 介绍 了 loc 设计 上 的 多 种 选择 及 其 跟踪 (tracing) 和 产生 执行 剖面 
(profiling) 的 功能 。 

本 章 向 读者 介绍 了 使 用 本 书 所 需要 的 noweb 的 知识 ， 如 果 你 需要 深入 了 解 noweb 的 基本 设 
计 原 理 和 实现 技术 ， 可 阅读 Ramsey (1994). noweb 是 WEB (Knuth 1984) 的 后 续 产 品 。Knuth 
(1992 ) 收集 了 他 的 多 篇 关于 文本 编程 的 论文 。 

ANSI ( American National Standards Institute, Inc. 1990) 是 C 程序 设计 语言 的 语法 和 语义 的 
权威 规范 。 与 其 他 C 编译 器 不 同 的 是 ，lce 只 编译 ANSI C， 它 不 支持 被 ANSI 委员会 抛弃 的 旧 的 
特征 。 除 了 标准 ，Kernighan and Ritchie (1988) 可 称 为 C 的 精粹 参考 。 该 书面 世 不 久 ，C 标准 就 
制定 完成 ， 因 此 稍 显 过 时 。Harbison and Steele ( 1991 ) 是 在 标准 制定 后 出 版 的 ， 完 全 按照 标准 介 
绍 了 C 的 语法 。Winh (1977) 介绍 了 EBNF. 
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存储 管理 





复杂 的 程序 大 都 需要 动态 分 配 内 存 ，lcc 也 不 例外 。C 语言 中 malloc 函数 分 配 内 存 ，free K 
数 释 放 内 存 。lcc 也 可 以 使 用 malloc 和 free, 但 是 我 们 优先 考虑 男 一 种 方法 ， 这 种 方法 更 有 效 、 
更 易于 编程 实现 、 更 适合 在 编译 器 中 使 用 ， 同 时 ， 这 种 方法 也 更 容易 理解 。 

程序 中 如 果 调 用 了 malloc， 就 必须 通过 free 释放 分 配 的 内 存 ， 这 种 释放 工作 的 代价 是 明显 
的 。 更 重要 的 是 ， 程 序 员 很 容易 忘记 释放 这 些 内 存 ， 而 更 糟 的 是 ， 可 能 会 释放 一 些 正 在 被 程序 引 
用 的 内 存 。 

在 有 些 应 用 程序 中 ， 大 多 数 释 放 工 作 是 在 同一 时 间 进 行 的 。 以 窗口 系统 为 例 ， 滚 动 条 、 按 钮 
等 窗口 元 素 在 窗口 创建 时 建立 并 分 配 相 应 的 内 存 空 间 ， 而 在 窗口 撤销 时 释放 占用 的 内 存 。 编 译 器 
也 是 如 此 ， 如 lcc， 它 在 处 理 到 函数 中 的 声明 、 语 句 和 表达 式 时 进行 内 存 空间 的 分 配 ， 在 语句 和 
函数 结束 时 释放 这 些 内 存 。 

大 多 数 malloc 的 实现 都 采取 基于 对 象 大 小 的 内 存 管理 算法 。 而 基于 对 象 生存 期 ( lifetime) 的 
算法 如 果 能 做 到 内 存 及 时 释放 ， 则 更 加 高 效 一 些 。 事 实 上 ， 栈 式 分 配方 法 可 能 最 为 高 效 ， 但 该 方 
法 要 求 对 象 的 生存 期 是 内 套 的 ， 而 这 种 条 件 在 编译 器 和 许多 其 他 应 用 程序 中 并 不 都 能 满足 。 

本 章 介绍 了 lcc 基于 对 象 的 生存 期 的 存储 管理 模式 。 在 该 模式 中 ， 内 存 分 配 比 malloc 更 高 
效 ， 释 放 的 代价 也 非常 小 。 该 模式 的 真正 优点 是 ， 它 使 得 编程 更 简单 。 分 配 的 代价 小 ， 使 得 编程 
人 员 可 以 采取 更 加 面向 应 用 的 算法 ， 而 无 须 因 为 顾及 空间 效率 而 采用 复杂 的 算法 。 同 时 ， 在 该 模 
式 下 ， 内 存 分 配 无 须 再 释放 ， 避 免 了 忘记 释放 内 存 的 问题 。 


2.1 内 存 管理 接口 


内 存 是 在 名 为 分 配 区 (arena) 的 区 域内 进行 分 配 的 ， 整 个 分 配 区 一 起 释放 。 生 存 期 相同 的 对 
象 在 同一 个 分 配 区 中 分 配 。 每 个 分 配 区 都 有 一 个 非 负 的 整数 作为 它 的 标识 符 ， 分 配 区 在 分 配 和 释 
放 时 通过 这 个 标识 符 进行 标识 : 

(alloc.c exported functions)= 7 


extern void *allocate ARGS((unsigned long n, unsigned a)); 
extern void deallocate ARGS( (unsigned a)); 


许多 分 配 具有 下 列 形式 : 
Struct T *p; 
p = allocate(sizeof *p, a); 


其 中 T 是 C 语 言 的 结构 ，a 是 一 个 分 配 区 , p 是 一 个 指针 ， 不论 p 是 什么 类 型 的 指针 ,使 用 
sizeof*p 都 可 以 正确 地 分 配 空间 。 如 果 采 取 另 一 种 需要 依赖 于 指针 指向 的 类 型 的 分 配方 式 ,- 那 么 
当代 码 发 生变 化 时 就 容易 出 错 。 例 如 : 

p = allocate(sizeof (struct T), a); 


FAS p 确实 是 一 个 指向 struct T 的 指针 时 ， 才 是 正确 的 ; 如 果 p 改 成 指向 其 他 结构 的 指针 ,， 那 
么 上 面 语 句 分配 空间 还 是 一 个 struct T， 因 此 分 配 就 不 正确 了 。 第 一 种 方法 在 效率 上 并 无 多 大 损 
失 ， 而 第 二 种 方法 可 能 造成 的 错误 却 是 灾难 性 的 。 
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这 种 分 配方 式 经 常 使 用 ， 因 此 我 们 将 其 定义 成 宏 : 
(alloc.c exported macros)= 
#define NEW(p,a) ((p) = allocate(sizeof *(p), (a))) 
#define NEWO(p,a) memset(NEW((p), (a)), 0, sizeof *(p)) 
A NEW 返回 一 个 指向 尚未 初始 化 的 空间 的 指针 ， 一 般 来 说 ， 大 多 数 使 用 者 会 马上 初始 化 这 块 空 
la], A NEW0 在 分 配 空间 后 ， 通 过 用 C 语言 的 memset 将 其 初始 化 为 0。memset 将 其 第 一 个 参数 
作为 函数 结果 返回 。 注 意 ，NEW 和 NEWO0 对 p 都 只 计算 一 次 ， 所以， 调用 这 两 个 宏 时 ， 即 使 传 
递 的 参数 表达 式 有 副作用 也 无 妨 ， 如 NEW(a[i+H])。 

此 外 ，sizeof 的 结果 是 size t 类 型 ， 该 类 型 必须 是 无 符号 整数 的 ， 要 求 能 够 表示 可 能 声明 的 
最 大 对 象 的 大 小 。 实 际 上 ，size 一 般 是 unsigned int 和 unsigned long 类 型 。allocate 的 声明 使 用 
的 是 unsigned long， 所 以 总 能 表示 sizeof 的 结果 。 

数组 是 另外 一 种 常见 的 分 配方 式 ， 下 面 的 newarray 在 给 定 的 分 配 区 中 为 数组 分 配 足 够 的 空 
间 ， 假 设 数组 有 m 个 元 素 ， 每 个 元 素 占 用 n 个 字 节 : 

(alloc.c exported functions) += 16 


extern void *newarray 
ARGS((unsigned long m, unsigned long n, unsigned a)); 


2.2 “分 配 区 的 表示 


内 存 管 理 模 块 的 实现 如 下 : 
(alloc.c 17)= 
#include "c.h" 
(alloc.c types) 
#ifdef PURIFY 
(debugging implementation) 
#else 
(alloc.c data) 
(alloc.c functions) 
#endif 
如 果 PURIFY 已 定义 ， 则 采用 malloc 和 free 方 式 进 行内 存 分 配 ， 这 种 方式 适合 查 错 ， 详 情 
参见 练习 2.1。 
如 前 所 述 ， 每 个 分 配 区 都 是 由 一 组 很 大 的 内 存 块 构成 的 链表 。 每 个 内 存 块 的 块头 的 数据 结构 
定义 如 下 : 
(alloc.c types) = 19 
struct block { be 
struct block *next; 
char *limit; 
char *avail; 


紧 接 在 这 些 分 配 区 结构 数据 之 后 ， 直 到 limit 所 指 的 地 址 ， 都 是 可 分 配 的 空间 。avail 指向 块 中 可 
分 配 区 域 的 首 地 址 ; 地 址 小 于 avail 的 空间 都 是 已 经 分 配 的 区 域 ， 从 avail 开始 ， 直 到 limit 所 指 
的 地 址 为 止 ， 都 是 继续 可 分 配 的 空间 。next 指向 链表 中 的 下 一 块 。 程 序 实现 中 有 一 个 分 配 区 指 
针 ， 指 向 链表 中 第 一 个 还 有 可 分 配 空间 的 内 存 块 。 下 面 可 以 看 到 ， 分 配 时 、 内 存 块 动态 地 加 入 链 
表 中 。 
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图 2-1 说 明了 一 个 分 配 区 在 分 配 了 3 个 块 之 后 的 情况 ， 阴 影 部 分 表示 已 分 配 的 空间 。 下 面 我 
们 将 会 解释 为 什么 图 中 第 一 个 分 配 区 中 还 有 未 分 配 的 空间 。 


ee 
next e 
limit NULL 
avail NULL 


first[1] 








图 2-1 分配 区 的 表示 


假设 有 3 个 分 配 区 ， 用 整数 0、1、2 标识 。 用 户 在 调用 allocate, deallocate 和 newarray 时 ， 
通常 可 以 使 用 与 这 些 标识 等 价 的 符号 名 (参见 5.12 节 )。 以 分 配 区 的 标识 数 为 下 标定 义 一 个 指针 
数组 ， 每 个 指针 指向 由 一 个 元 素 组 成 的 链表 ， 分 配 区 内 存 块 长 度 为 0。 在 每 个 分 配 区 中 进行 的 第 
一 次 分 配 ， 将 导致 一 个 新 的 内 存 块 增加 到 相应 链表 的 末尾 。 
(alloc.c data)= 19 
static struct block 


first{] = { { NULL }, { NULL }, { NULL } }, 
*arena[] = { &first[0], &first[1], &first[2] }; 


first 数组 在 初始 化 时 仅 提供 元 素 的 数目 信息 ， 由 于 初始 化 数据 不 完全 ， 因 此 ，3 个 结构 的 剩余 成 
员 被 初始 化 为 空 指针 。 虽 然 本 例 中 只 有 3 个 分 配 区 ， 但 是 只 要 修改 frst 和 分 配 区 数组 初始 化 数据 
的 数目 ， 就 很 容易 推广 到 任意 多 个 分 配 区 。5.12 节 介 绍 了 leo 如 何 使 用 这 3 个 分 配 区 。 


2.3 ”空间 分 配 


大 多 数 分 配 代码 是 非常 琐碎 的 : 按照 内 存 边 界 对 齐 原 则 确定 分 配 空间 的 大 小 ， 据 此 增加 avail 
指针 值 ， 并 返回 该 指针 原来 的 值 。 


‘(alloc.c functions)= 20 
void *allocate(n, a) unsigned long n; unsigned a; { 
struct block *ap; 


ap = arena[a]; 

n = roundup(n, sizeof (union align)); 

while (ap->avail + n > ap->limit) { 
(get a new block 19) 

} 

ap->avail += n; 

return ap->avail - n; 
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M 
(alloc.c types) += 173 
union align { 
long 1; 
char *p; 
double d; 


int (*f) ARGS((void)); 
}; 
与 malloc 类 似 ; allocate 必须 返回 一 个 对 齐 后 的 指针 ， 指 针 指 向 的 空间 可 以 存放 任何 类 型 的 
值 。 联 合 align 给 出 了 宿主 机 上 最 小 对 齐 字 节 数 。align 的 成 员 规定 了 最 严格 的 对 齐 要 求 。 
上 述 代 码 中 的 while 循环 不 断 执 行 ， 直 到 ap 所 指 的 块 至 少 有 n 个 字 节 的 可 分 配 空间 。 对 于 大 
多 数 调 用 allocate 的 情况 ， 这 种 块 就 是 由 allocate 的 第 二 个 参数 所 指 的 分 配 区 指向 的 块 。 
如 果 当 前 块 的 可 分 配 空间 不 能 满足 分 配 请 求 ， 则 必须 分 配 一 个 新 的 块 。 在 下 面 的 代码 中 
可 以 看 到 ，deallocate 不 会 真正 释放 一 个 内 存 块 ， 而 是 把 释放 的 块 放 人 空闲 块 列 表 ， 该 链表 由 
freeblocks 指向 。allocate 总 是 从 该 链表 获得 空闲 的 块 ， 如 果 链 表 中 没有 空闲 的 块 ， 则 再 分 配 产生 
一 个 新 的 内 存 块 。 


(alloc.c data) += ig 
static struct block *freeblocks; 


(get a new block 19)= 18 
if ((ap->next = freeblocks) != NULL) { 
freeblocks = freeblocks->next; 
ap = ap->next; 
} else 
(allocate a new block 19) 
ap->avail = (char *)((union header *)ap + 1); 
ap->next = NULL; 
arena[a] = ap; 


(alloc.c types) += T 
union header { 
struct block b; 
union align a; 


联合 header 保证 ap->avail 总 是 指向 一 个 对 齐 后 的 地 址 。 一 旦 ap 指向 了 一 个 新 的 内 存 块 ， 分 配 区 
指针 就 会 调整 指向 这 个 新 内 存 块 ， 后 续 分 配 就 在 该 块 中 进行 。 如 果 新 的 内 存 块 来 自 freeblocks， 
有 可 能 太 小 不 足以 分 配 n 个 字 节 ， 则 需要 通过 allocate 的 while 循环 继续 寻找 新 的 满足 要 求 的 内 
存 块 。 

如 果 确 实 需 要 增加 一 个 内 存 块 ， 则 新 增 的 内 存 块 除 了 包括 块 的 头 、n 个 字 节 的 需要 分 配 的 空 
lal, A 10 KB 的 空闲 待 分 配 的 空间 : 


{allocate a new block 19)= 19 


unsigned m = sizeof (union header) + n + 10*1024; 
ap->next = malloc(m); 

ap = ap->next; 

if Cap == NULL) { 
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if (ap == NULL) { 
errorC"insufficient memory\n"); 
exit(1); 


ap->limit = (char *)ap + m; 


如 果 当 前 块 不 能 满足 某 个 分 配 请 求 ， 那 么 当前 块 未 尾 剩余 的 空闲 空间 都 被 浪费 了 。 图 2-1 中 
第 一 个 分 配 区 就 说 明了 这 种 情况 。 
newarray 可 以 通过 调用 allocate 简单 地 实现 : 


(alloc.c functions) += fg 20 


void *newarray(m, n, a) unsigned long m, n; unsigned a; { câ 


return allocate(m*n, a); 


} 


2.4 空间 释放 


一 个 分 配 区 释放 时 ， 把 它 的 所 有 内 存 块 都 加 入 空 闲 块 列表 中 ， 自 己 重 新 初始 化 成 指向 单元 素 
列表 ， 而 该 元 素 的 内 存 块 长 度 为 0。 由 于 被 释放 的 内 存 块 已 经 通过 其 next 指针 连 成 了 一 个 链 ， 所 
以 只 要 通过 简单 的 指针 操作 就 可 以 把 整个 链 中 的 所 有 块 都 加 入 freeblocks 中 : 

{alloc.c functions) += 20 

void deallocate(a) unsigned a; { 
arena[a]->next = freeblocks; 
freeblocks = first[a].next; 


first[a].next = NULL; 
arena[a] = &first[a]; 


25 字符 串 


字符 串 可 以 用 于 标识 符 、 常 量 和 寄存 器 等 ， 经 常会 需要 进行 字符 串 比 较 运 算 ， 例 如 在 符号 表 
中 搜索 一 个 标识 符 。 

string.c 文件 给 出 了 最 常用 的 字符 串 函数 : 

(string.c exported functions)= 

extern char * string ARGS((char *str)); 

extern char *stringn ARGS((char *str, int len)); 

extern char *stringd ARGS(Cint n)); 
其 中 每 个 函数 返回 一 个 指向 永久 占用 的 字符 串 的 指针 ，string 函数 对 以 null 结尾 的 字符 串 str 进行 
复制 ，stringn 对 字符 串 str 的 前 len 个 字 节 进行 复制 ，stringd 把 整数 n 按 十 进 制 转换 成 字符 串 形 
式 ， 并 返回 。 

这 些 函 数 对 于 每 个 不 同 的 字符 串 只 保存 一 份 副本 ， 所 以 这 些 函 数 返 回 的 两 个 字符 串 可 以 通过 
比较 它们 的 地 址 来 检查 是 否 相等 。 这 种 语义 简化 了 比较 操作 ， 节 约 了 空间 ，stringn 还 可 以 处 理 内 
Er null 字符 的 字符 串 。 

函数 string 调用 了 stringn， 可 以 用 来 说 明 stringn 的 使 用 方法 : 
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(string.c functions)= 21 
char *string(str) char *str; { 
char *s; 


for (s = str; *s; S++) 


return stringn(str, s - str); 


} 


stringd 把 参数 和 转换 成 字符 串 ， 并 存放 在 一 个 私有 缓冲 区 中 ， 然 后 调用 stringn 返回 相应 的 
字符 串 。 


(string.c functions) += 分 22 
char *stringd(n) int n; { 
char str[25], *s = str + sizeof (str); 
unsigned m; 


if (n == INT_MIN) 
m = (unsigned)INT_MAX + 1; 
else if (n < 0) 
m= -n; 
else 
m= n; 
do 
*--s = m%10 + '0'; 
while ((m /= 10) != 0); 
if (n < 0) 
F226 x rats 
return stringn(s, str + sizeof (str) - s); 


} 

HF ANSI C 允许 不 同 的 机 器 对 于 负数 求 模 有 不 同 的 处 理 方式 ， 因 此 代码 使 用 了 无 符号 算术 
运算 。 程序 中 首先 把 n 的 绝对 值 赋 给 m, WR n 是 最 小 的 负 整 数 ， 由 于 任何 2 的 补 码 符号 整数 都 
无 法 表示 其 绝对 值 ， 因 此 这 种 情况 需要 特殊 处 理 。 字 符 串 的 建立 是 从 后 向 前 的 ， 最 后 一 个 数字 优 
先 。 练 习 2.10 说 明了 为 什么 局 部 数组 str 包含 25 个 元 素 。INT_MIN 在 头 文件 limits.h 中 定义 。 

stringn 对 所 有 不 同 的 字符 串 进行 管理 ， 它 把 所 有 字符 串 存 放 在 一 个 字符 串 表 (string table) 
中 ， 保 证 每 个 不 同 的 字符 串 只 有 一 份 副本 ， 该 表 中 的 任何 字符 串 不 会 被 删除 。 字 符 串 表 是 一 个 长 
度 为 1024 的 哈 希 (hash) 表 : 

(string.c data)= 

static struct string { 

char *str; 
int len; 
struct string *link; 

} *buckets[1024]; 

每 个 喻 希 桶 (bucket) 都 保存 了 一 个 字符 串 链表 ， 链 表 中 的 字符 串 的 哈 希 值 都 是 相同 的 。 考 
虑 到 字符 串 中 可 能 包含 null 字符 ， 每 个 字符 串 表 项 还 包括 了 该 串 的 长 度 ( 放 在 len 域 中 )。 

如 果 字 符 串 不 在 字符 串 表 中 ， 则 stringa 把 该 字符 串 加 入 表 中 ， 并 返回 该 字符 串 地 址 ; 否则 
直接 返回 其 地 址 。 
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(string.c functions)+= 分 
char *stringn(str, len) char *str; int len; { 
int i; 
unsigned int h; 
char *end; 


struct string *p; 


{h — hash code for str, end — 1 past end of str 22) 
for (Cp = buckets(h]; p; p = p->link) 
if (len == p->len) { 
char *sl = str, “s2 = p->str; 
do { 
if (sl == end) 
return p->str; 
} while (*sl++ == *s2++); 


} 
(install new string str 22) 
} 


h 为 str 对 应 的 哈 希 链 。stringn 对 该 链 进行 遍历 ， 比 较 链 上 长 度 与 str 相等 的 字符 串 是 否 和 str 完全 
相同 。end 指向 str 最 后 一 个 字符 之 后 的 字符 。 

理想 的 哈 希 函数 最 好 能 将 字符 串 对 应 的 函数 值 均匀 分 布 在 0 到 NELEMS(buckets)-1 之 间 ， 
使 得 每 个 哈 希 链 具 有 相等 的 长 度 。 代 码 


(h — hash code for str, end — 1 past end of str 22)= 22 
for (h = 0, i = len, end = str; i > 0; i--) 
h = (h<<1) + scatter(*(unsigned char *)end++]; 
h &= NELEMS(buckets)-1; 


是 一 个 相对 较 好 的 哈 希 函数 ，scatter 是 包含 256 个 随机 数 的 静态 数组 ， 以 帮助 分 布 哈 希 函 数值 。 
直接 把 end 所 指 的 字符 作为 数组 下 标 可 能 有 问题 ， 因 为 该 字符 也 许 会 被 按 符号 扩展 而 变 成 一 个 负 
整数 ， 所 以 ， 我 们 先 把 end 转换 成 一 个 指向 无 符号 字符 的 指针 以 避免 这 种 可 能 的 错误 。 这 段 代 码 
还 将 end 指针 置 于 str 的 最 后 一 个 字符 后 面 的 字符 位 置 上 ， 就 像 上 面 显 示 的 ， 它 用 于 比较 和 复制 
字符 串 。 

传统 的 建议 是 ， 哈 希 表 的 大 小 应 该 取 一 个 素数 。 而 如 果 取 成 2 WE, loc 会 工作 得 更 快 ， 因 
为 掩 码 (masking) 运算 比 求 模 运 算 更 快 。 

stringn 把 新 的 字符 串 存 放 在 永久 分 配 的 内 存 块 中 ， 内 存 块 最 少 有 4 KB. PERM 表示 永久 的 
存储 分 配 区 。 


(install new string str 22)= 22 
{ 

static char *next, *strlimit; 

if (next + len + 1 >= strlimit) { 
int n = len + 4*1024; 
next = allocate(n, PERM); 
strlimit = next + n; 

} 

NEW(p, PERM); 

p->len = len; 

for (p->str = next; str < end; ) 
*next++ = *str++; 
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*next++ = 0; 

p->link = buckets[h]; 
buckets[h] = p; 
return p->str; 


} 
静态 变量 next 指向 当前 内 存 块 的 下 一 个 待 分 配 的 字 节 ，strlimit 指向 当前 内 存 块 最 后 一 个 字 节 之 
后 的 字 节 。 如 果 有 必要 ， 上 面 的 代码 会 分 配 一 个 新 的 内 存 块 ， 并 增加 一 个 新 的 字符 串 ， 一边 复制 
str， 一 边 增加 next， 并 把 该 字符 串 连 接 到 相应 的 哈 希 链 中 。 
深入 阅读 

存储 管理 是 研究 热点 之 一 * Knuth ( 1973a) 中 的 2.5 节 是 权威 的 参考 ， 其 中 列 出 了 许多 技巧 ， 
这 些 技巧 有 些 是 针对 一 般 的 应 用 ， 有 些 是 针对 特殊 的 应 用 ， 包 括 本 章 介绍 的 设计 方法 (Hanson 
1990 )。 另 一 种 有 效 的 方法 是 “快速 匹配 ”( quick fit) 方法 (Weinstock and Wulf 1988 )。 快 速 匹配 
分 配方 法 对 于 最 常 分 配 的 N 种 字 节 数目 ， 分 别 维护 N 个 待 分 配 链表 ， 通 常 这 些 块 的 字 节 数 是 较 
小 而 连续 的 ， 比 如 是 8 ~ 128 字 节 且 为 8 的 倍数 ， 分 配方 法 非常 简单 快速 : 根据 你 分 配 的 字 节 数 ， 
从 相应 的 链表 中 取 第 一 个 块 即 可 。 内 存 块 释放 时 ， 再 将 其 加 入 相应 链表 的 链 首 。 如 果 请 求 分 配 的 
字 节 数 不 是 最 常用 的 N 个 数字 ， 则 按照 其 他 算法 处 理 ， 如 “最 先 匹 配 ”(Knuth 1973a)。 

对 于 lcc 基于 分 配 区 的 分 配 算法 来 说 ， 其 优点 之 一 是 ， 内 存 分 配 操作 无 须 一 一 对 应 的 释放 操 
作 ， 只 要 一 个 释放 操作 ， 就 可 以 把 通过 多 个 分 配 操作 得 到 的 内 存 一 起 释放 ， 使 得 编程 更 简单 。 垃 
圾 收集 方法 将 这 种 优点 进一步 发 展 ， 垃 圾 收集 程序 通过 定期 检查 程序 中 的 所 有 指针 ， 查 找 出 正在 
使 用 的 内 存 ， 并 将 未 被 使 用 的 空间 释放 。Appel (1991) 和 Wilson (1994) 研究 了 垃圾 收集 算法 。 
通常 需要 程序 设计 语言 、 编 译 器 和 运行 时 系统 (run-time system) 对 垃圾 收集 程序 进行 支持 ， 使 
得 后 者 能 够 定位 可 访问 的 内 存 。 但 是 ， 也 有 一 些 算法 能 够 不 依赖 于 这 些 支持 ，Boehm and Weiser 
(1988) 介绍 了 这 样 一 种 针对 C 的 算法 。 该 算法 采取 了 一 种 保守 的 方法 : 所 有 貌似 指针 的 元 素 都 
被 当成 指针 。 因 此 ， 收 集 程序 会 把 一 些 不 可 访问 的 内 存 当 成 可 以 访问 的 ， 使 得 系统 繁忙 ， 但 这 种 
方法 要 比 采取 相反 的 方法 好 。 

采取 喻 希 函 数 把 所 有 字符 串 存放 到 一 个 字符 串 表 中 ， 每 个 字符 串 只 保存 一 个 副本 ， 这 种 方法 
是 多 年 来 在 编译 器 和 相关 程序 语言 实现 中 被 使 用 的 一 种 模式 ， 但 是 很 少 有 介绍 它 的 文档 。 例 如 ， 
该 方法 用 于 SNOBOL4(Griswold 1972 )， 使 得 把 字符 串 作 为 关联 表 的 关键 字 变 得 更 快速 、 更 简单 。 
还 有 一 些 相关 的 技巧 ， 把 字符 串 存放 在 单独 的 字符 串 空间 ， 但 是 并 未 避免 相同 的 字符 串 保留 多 个 
副本 。 这 种 方法 可 以 简化 某 些 字符 串 操 作 ， 如 获取 子 串 、 字 符 串 连接 等 (Hansen 1992 ; Hanson 
1974; McKeeman, Homing and Wortman 1970 )。 

Knuth ( 1973b) 是 介绍 哈 希 方法 的 权威 。Aho， Sethi and Ullman ( 1986 ) 介绍 了 哈 希 函数 及 
其 在 编译 器 中 的 应 用 。 
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2.1 使 用 C AY EPR malloc Fil free 修改 allocate 和 deallocate。 

22 在 lcc 中 ， 如 果 要 在 多 个 算法 和 设计 中 做 出 选择 ， 唯 一 客观 的 途径 就 是 实现 这 些 算 法 和 方法 ， 并 对 其 效 
果 进 行 评测 。 将 lee 用 于 编译 其 自身 的 源 代码 是 一 种 很 好 的 测量 标准 。 请 对 基于 分 配 区 的 算法 和 练习 
2.1 所 实现 的 采用 malloc 和 free 的 方法 的 性 能 进行 评测 。 
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2.6 
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2.8 


2.9 


2.10 


2.11 


2.14 
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重新 定义 NEW， 使 其 尽 可 能 在 分 配 区 内 部 进行 分 配 ， 即 只 有 当 分 配 区 的 空间 不 够 时 才 调用 allocates 
测试 其 效果 。 为 了 实现 内 部 分 配方 法 ， 必 须 输出 分 配 区 的 数据 结构 。 
当 allocate 建立 了 一 个 新 块 时 ， 提 供 了 一 个 好 时 机 ， 如 果 这 个 新 块 和 该 分 配 区 中 前 一 个 块 相 邻 ， 就 可 以 
将 二 者 连 成 一 个 更 大 的 块 ， 实 现 并 测试 这 种 方法 的 改进 效果 。 
当 allocate 从 freeblocks 中 取 走 一 个 块 时 ， 有 可 能 这 个 块 太 小 。 对 分 配 程序 进行 插 桩 ， 看 看 这 种 情况 是 
否 经 常 发 生 ， 这 个 问题 值得 修改 吗 ? 
说 明 deallocate 在 分 配 区 列表 只 有 长 度 为 0 的 块 时 也 能 正确 工作 。 
deallocate 从 不 真正 释放 块 ， 如 通过 调用 free。 在 某 些 输入 情况 下 ，lcc 的 分 配 区 会 临时 膨胀 ， 而 已 分 配 
的 块 不 会 再 被 利用 。 修 改 deallocate 以 释放 块 ， 而 不 是 将 其 加 入 freeblocks 中 。 这 种 改变 能 使 lce 运行 
得 更 快 吗 ? 
为 lee 实现 一 个 保守 的 垃圾 收集 程序 ， 或 者 利用 一 个 已 有 的 垃圾 收集 程序 。Boehm and Weiser ( 1988 ) 
介绍 的 收集 程序 是 公开 的 。 大 多 数 这 类 分 配 程序 在 进行 分 配 时 会 调用 收集 程序 或 部 分 收集 程序 ， 因 此 ， 
你 可 以 去 掉 deallocate， 或 者 将 其 定义 为 空 的 宏 ， 并 修改 allocate 以 调用 相应 的 分 配 函 数 。 
通过 stringn 在 字符 串 表 中 建立 的 字符 串 不 会 被 删除 。 这 种 特点 会 带 来 问题 吗 ? 调用 stringn 看 字符 串 表 
的 大 小 分 布 情况 。 如 果 表 格 太 大 ， 如 何 修改 字符 串 接口 ， 使 其 允许 删除 字符 串 ? 
stringd 将 其 参数 格式 化 成 字符 串 ， 存 人 长 度 为 25 的 字符 数组 str 中 。 请 解释 为 什么 25 对 于 当前 lcc 
运行 并 产生 代码 的 计算 机 已 经 足够 了 。 
许多 传 给 stringd 的 整数 很 小 ， 比 如 在 -100 到 100 之 间 。 这 些 整 数 对 应 的 字符 串 在 编译 时 就 可 以 进行 
预 分 配 ，stringd 和 stringn 只 要 返回 指向 这 些 字 符 串 的 指针 而 无 须 再 分 配 。 实 现 这 种 优化 措施 ， 能 使 
lcc 运行 加 快 吗 ? 
stringn 用 较 大 的 内 存 块 来 存放 字符 串 中 的 字符 ， 而 不 会 为 每 个 字符 串 都 调用 allocate。 修 改 stringn 使 
得 它 为 每 个 字符 串 调用 一 次 allocate。 比 较 这 两 种 方法 在 时 间 和 空间 上 的 差别 ， 并 解释 这 些 差别 。 
stringn 的 哈 希 表 的 大 小 是 2 的 宕 ， 这 种 方法 经 常 遭 到 反对 。 尝 试 将 其 大 小 设 成 某 个 素数 并 衡量 效果 ， 
请 设计 一 种 更 好 的 哈 希 函数 并 考察 其 结果 。 
stringn 比较 字符 串 采取 的 是 内 联 代码 ， 而 不 是 调用 memcmp 函数 。 请 用 调用 memcmp 代替 内 联 代码 
并 考察 结果 。 为 什么 我 们 要 采取 内 联 方法 ? 
lec 大 量 使 用 了 指针 循环 列表 ，list.c 模块 的 实现 可 视 为 使 用 分 配 宏 (allocation macro) 的 例子 ，list.c 输 
出 了 列表 元 素 的 类 型 和 3 个 列表 操作 函数 : 


(list.c typedefs)= 
typedef struct list *List; 


(list.c exported types)= 
struct list { 
void *x; 
List link; 
J}; 


(list.c exported functions)= 
extern List append ARGS((void *x, List list)); 
extern int length ARGS((List list)); 
extern void *Itov ARGS((List *list, unsigned a)); 
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List 保存 了 0 或 多 个 元 素 ， 每 个 元 素 存 放 在 list 结构 的 x 域 中 。List 指向 列表 中 最 后 一 个 list 结构; 
空 的 List 定 义 为 空 列表 。append 函数 把 包含 x 的 节点 加 入 list 列 表 的 末尾 并 返回 list. length 函数 
返回 列表 中 元 素 的 数目 。ltov 函数 把 list 中 的 n 个 元 素 复制 到 a 所 指 的 分 配 区 中 以 空 元 素 结尾 的 指 
针 数 组 ， 释 放 列 表 结 构 并 返回 该 数组 。 数 组 中 有 n+l 个 元 素 ， 包 含 一 个 空 元 素 。 请 实现 这 种 列表 
模块 。 
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A Retargetable C Compiler: Design and Implementation 


符号 管理 





符号 表 是 编译 器 保存 信息 的 中 心 库 ， 编 译 器 的 各 部 分 通过 符号 表 进 行 交 互 ， 并 访问 符号 表 中 
的 数据 一 一 符号 。 例 如 ， 词 法 分 析 器 把 标识 符 加 入 标识 符 表 中 ， 由 分 析 器 添加 这 些 标识 符 的 类 型 
信息 ， 代 码 生 成 器 则 为 符号 表 的 各 入 口 添加 与 目标 相关 的 信息 ， 如 局 部 变量 和 参数 的 寄存 器 分 配 
信息 。 符 号 表 也 保存 有 关 标 号 、 常 量 和 类 型 的 信息 。 

符号 表 把 各 种 名 字 映 射 到 符号 集合 。 常 量 、 标 识 符 和 标号 都 是 名 字 ， 不 同 的 名 字 有 不 同 的 属 
性 。 例 如 ， 作 为 局 部 变量 名 的 标识 符 包 括 变量 的 类 型 、 该 变量 在 其 声明 所 在 过 程 的 栈 帧 中 的 位 置 
以 及 存储 类 型 ， 作 为 结构 成 员 名 的 标识 符 则 具有 完全 不 同 的 属性 集 ， 包 括 成 员 的 类 型 、 所 在 的 结 
构 及 其 在 结构 中 的 位 置 。 

符号 信息 都 集中 保存 到 符号 表 中 ， 由 符号 表 模 块 对 符号 和 符号 表 进行 管理 。 

符号 管理 不 仅 要 处 理 符号 本 身 ， 还 必须 遵循 ANSI C 标准 规定 的 作用 域 (scope) 或 可 见 性 
(visibility) 规则 。 标 识 符 的 作用 域 是 指 在 程序 文本 中 该 标识 符 可 见 的 部 分 ， 即 在 这 些 程序 部 分 中 ， 
该 标识 符 可 以 用 于 表达 式 等 成 分 。C 的 作用 域 可 以 艇 套 ， 一 个 标识 符 的 可 见 范 围 是 从 该 标识 符 的 
声明 点 开始 ， 直 到 其 声明 所 在 的 复合 语句 或 参数 列表 结束 。 在 所 有 复合 语句 或 参数 列表 以 外 声明 
的 标识 符 具有 文件 作用 域 ， 其 可 见 范围 从 声明 点 开始 直到 其 所 在 的 源 文件 结束 。 

内 层 声明 的 标识 符 X 会 隐藏 外 层 声明 的 标识 符 X， 下 面 的 程序 说 明了 这 种 效果 ; 行 号 是 为 了 
说 明 方 便 ， 并 非 程序 的 组 成 部 分 。 


i. Ant-x,. ¥3 
2) FEINE x, Ant a) { 
int b; 
y = x + a*b; 
CO 
int a; 
y =x + afb; 


SnNOU PW 


9 y = x + a*b; 
10 } 

第 1 行 声 明了 全 局 变量 x 和 y， 它 们 的 作用 域 开始 于 第 1 行 ， 直 到 第 10 行 。 但 是 第 2 行 参 数 
x 的 声明 打 断 了 全 局 变量 x 的 作用 域 ， 参 数 x 和 a 的 作用 域 起 始 于 第 2 行 ， 直 到 第 9 行 。 参 数 a 
的 作用 域 也 被 第 6 行 的 局 部 变量 a 的 声明 打 断 。 第 4 行 的 表达 式 中 出 现 的 各 标识 符 按照 C 的 作用 
域 规则 被 绑 定 到 各 自 的 声明 上 。 若 使 用 xn 表示 在 第 nm 行 声明 的 标识 符 x， 那 么 第 4 行 的 表达 式 
HAY y BREW yl, x 绑 定 为 x:2，a 绑 定 为 aa2，b 绑 定 为 b:3。 第 7 行 表达 式 中 标识 符 的 绑 定 情况 
类 似 ， 只 是 a 应 绑 定 为 a:6。 

上 面 第 2 行 x 的 声明 和 第 6 行 a 的 声明 使 得 外 层 声 明 的 相同 标识 符 的 作用 域 出 现 了 空洞 。 例 
如 ,a:6 的 作用 域 是 第 6 ~ 8 行 ， 这 正好 是 a:2 的 作用 域 的 空洞 ， 其 作用 域 为 第 2 ~ 5 行 和 第 9 ~ 10 
行 。 符 号 管理 功能 必须 能 够 处 理 这 类 情况 。 
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在 大 多 数 语言 中 ， 如 Pascal， 对 于 标识 符 有 一 个 名 字 空 间 ， 也 就 是 说 ， 对 于 各 种 用 途 的 标识 
符 都 在 一 个 统一 集合 中 ， 在 程序 的 任何 地 方 ， 对 于 给 定 的 名 字 只 有 一 个 标识 符 可 见 。 

ANSI C 按照 用 途 对 标识 符 的 名 字 空 间 进 行 分 类 : 语句 标号 、 标 记 (tag)、 成 员 、 一 般 标识 符 。 
标记 表示 结构 、 联 合 和 枚 举 。 对 于 标号 、 标 记 和 一 般 标识 符 分 别 有 3 个 独立 的 名 字 空 间 ， 而 对 于 
每 个 结构 和 联合 ， 其 成 员 都 有 独立 的 名 字 空 间 。 

在 每 个 名 字 空 间 中 ， 对 于 每 个 给 定 的 名 字 ， 在 程序 的 任何 地 方 都 只 有 一 个 可 见 的 标识 符 。 但 
是 ， 如 果 标 识 符 处 于 不 同 的 名 字 空 间 中 ， 在 程序 的 任何 地 方 就 允许 有 多 个 标识 符 可 见 。 下 面 的 特 
意 设计 的 、 易 于 混淆 的 程序 说 明了 这 种 情况 : 

1 struct Vist {-int x; struct list *list; } *list; 

2 walk(struct list *list) { 

3 list: 

4 printf("%d\n", list->x); 
5 if (Clist = list->list) != NULL) 
6 goto list; 

ey 

8 mainQ { walk(list); } 

第 1 行 声明 了 3 个 名 为 list 的 标识 符 ， 这 些 标 识 符 从 声明 点 开始 都 是 可 见 的 。 这 里 list 分 别 
作为 结构 标记 、 结 构 域 名 和 结构 变量 名 。 作 为 标记 和 变量 名 的 list 具有 文件 作用 域 ; 从 技术 上 
说 ， 作 为 结构 域名 的 list 也 如 此 ， 但 它 只 能 通过 域 引 用 运算 符 “,” 和 “->” 来 使 用 。 第 2 行 声 
明了 参数 list， 它 的 作用 域 是 第 2 ~ 7 行 。 第 3 行 声 明了 标号 list, CRA RAE (function 
scope), PAX walk 的 范围 内 都 可 见 。 第 4 ~ 8 行 的 list 取决 于 使 用 的 名 字 空 间 ， 第 4 行使 用 的 
是 一 般 标 识 符 ， 第 5 行 前 两 个 list 使 用 的 是 一 般 标识 符 ， 最 右边 的 list 使 用 的 是 结构 list 的 成 员 的 
名 字 空 间 ， 第 6 行使 用 的 是 标号 名 字 空 间 ， 第 8 行 再 次 使 用 了 一 般 标识 符 的 名 字 空 间 。 

粗略 地 说 ， 对 于 不 同 的 名 字 空 间 有 独立 的 符号 表 ， 每 个 符号 表 各 自 处 理 作 用 域 。lcc 还 使 用 
独立 的 符号 表 来 处 理 无 作用 域 集 合 (unscoped collection)， 如 常量 。 


3.1 符号 的 表示 

内 存 分 配 和 字符 串 模块 可 以 在 loo 之 外 独立 使 用 ， 而 符号 表 模 块 则 是 与 lee 密切 相关 的 ， 该 
模块 对 loc 的 符号 和 符号 表 进 行 管 理 ， 并 实现 ANSI C 规定 的 作用 域 规则 和 名 字 空 间 机 制 。 

对 于 符号 本 身 来 说 ， 与 符号 表 模 块 没 有 什么 关系 ， 符 号 表 模 块 只 需要 符号 与 作用 域 相 关 的 属 
性 ， 如 符号 名 等 。 因 此 ， 很 简单 ， 符 号 结构 中 只 需要 包括 名 字 和 所 有 其 他 属性 : 


{sym.c typedefs)= 28 
typedef struct symbol *Symbol; 


(sym.c exported types) = 28 
struct symbol { a 
char *name; 
int scope; 
Coordinate src; 
Symbol up; 
List uses; 
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int sclass; 
(symbol flags 37) 
Type type; 
float ref; 
union { 
(labels 34) 
(struct types 50) 
(enum constants 52) 
(enum types 52) 
(constants 35) 
(function symbols 226) 
(globals 206 ) 
(temporaries 270) 
} u; 
Xsymbol x; 
(debugger extension) 
}; 
结构 中 在 联合 u 之 前 的 各 域 ， 对 于 所 有 符号 表 中 的 所 有 符号 都 是 通用 的 ， 大 多 数 符号 表 函 数 
只 读 写 name, scope, sre, up 和 uses 等 域 。 针 对 常量 和 标号 的 函数 则 需要 使 用 联合 4 和 <symbol 
flags> (后 文 详 述 ) 中 的 部 分 域 。 其 他 域 则 实现 了 与 特定 类 符号 相关 的 属性 ， 这 些 属性 由 符号 表 模 
块 的 使 用 者 进行 初始 化 和 修改 。 
name 域 通常 是 符号 表 的 关键 域 。 对 于 标识 符 和 表示 类 型 名 的 关键 字 ， 该 域 保 存 了 源 代码 
中 使 用 的 名 字 ; 对 于 编译 器 生成 的 标识 符 ， 如 无 标记 的 结构 ，name 保存 的 是 由 数字 组 成 的 字 
FF EB 
scope 域 说 明了 符号 是 常量 、 标 号 、 全 局 变量 、 参 数 或 局 部 变量 : 
(sym.c exported types)+= 27 
enum { CONSTANTS=1, LABELS, GLOBAL, PARAM, LOCAL }; 
在 第 k 层 中 声明 的 局 部 变量 ， 其 scope 域 等 于 LOCAL+k。 
sro 域 指 明了 该 符号 在 源 代码 中 定义 点 的 位 置 ， 如 变量 声明 的 所 在 位 置 ， 其 类 型 Coordinate 
精确 指明 了 符号 在 何 处 定义 : 
(sym.c typedefs)+= 27 29 
typedef struct coord { 
char *file; 
unsigned x, y; 
} Coordinate; 
file 域 指明 了 包含 该 定义 的 文件 的 名 字 ,，y 和 x 分 别 指明 了 定义 出 现 的 行 号 以 及 在 定义 行 中 的 字符 
位 置 。 
up 域 把 符号 表 中 所 有 符号 连 成 了 一 个 链表 ， 最 后 载 人 符号 表 的 那个 符号 为 链 首 。 从 后 向 前 
遍历 该 链表 可 以 访问 到 当前 作用 域内 的 所 有 符号 ， 包 括 因 为 租 套 内 层 作 用 域 中 的 标识 符 声明 而 被 
隐藏 的 符号 。 这 种 功能 有 助 于 编译 后 端 产生 调试 器 所 用 的 符号 表 信息 。 
lcc 有 一 个 选项 ， 通 过 该 选项 可 以 保存 每 个 符号 的 所 有 使 用 信息 。 如 果 该 选项 被 设置 ， 则 
uses 域 保 存 一 个 Coordinate 列表 ,说 明了 符号 的 使 用 情况 ;如果 该 选项 未 被 设置 ，uses 为 null。 
参见 练习 3.4。 
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sclass 域 说 明了 符号 的 扩展 存储 类 型 ， 可 以 是 AUTO、REGISTER、STATIC 2 EXTERN. 
sclass 还 可 以 取 值 TYPEDEF 表示 typedef、 取 值 ENUM 表示 枚 举 常量 ， 对 于 常量 和 标号 该 域 未 被 
使 用 ， 其 值 为 0。 

type 域 保存 了 变量 、 函 数 、 常 量 、 结 构 、 联 合 和 枚 举 等 的 类 型 信息 。 

对 于 变量 和 标号 来 说 ，ref 域 保存 了 它们 被 引用 的 粗略 次 数 ，10.3 节 解 释 了 如 何 进行 这 种 近 
似 计数 。 

u 域 是 一 个 联合 ， 为 标号 、 结 构 和 联合 类 型 、 枚 举 标识 符 、 枚 举 类 型 、 常 量 、 函 数 、 全 局 和 
静态 变量 、 临 时 变量 等 提供 了 附加 信息 。 对 于 每 个 符号 来 说 ，<symbol flags> 是 一 位 属性 标记 。x 
域 和 <debugger extension> 包括 一 些 仅 由 编译 后 端 处 理 使 用 的 域 ， 如 为 变量 分 配 的 寄存 器 、 为 调 
试 器 产生 数据 提供 所 需要 的 信息 5 

Symbol 和 Coordinate 的 类 型 定义 说 明了 贯穿 lcc 的 一 种 约定 : 大 写字 母 开 头 的 名 字 用 于 表 
示 结 构 的 类 型 名 或 指向 结构 的 指针 ， 而 结构 标记 则 采用 小 写字 母 。 因 此 ，Coordinate 表示 struct 
coord 的 类 型 名 ，Symbol 表示 struct symbol* 的 类 型 名 。 


3.2 符号 表 的 表示 
符号 表 只 由 符号 表 模块 操作 ， 该 模块 输出 一 个 符号 表 类 型 Table 和 各 种 符号 表 实例 : 


(sym.c typedefs) += R 35 
typedef struct table *Table; 
(sym.c exported data)= 32 


extern Table constants; 
extern Table externals; 
extern Table globals; 
extern Table identifiers; 
extern Table labels; 
extern Table types; 


上 述 符号 表 的 子 集 实 现 了 ANSI C 的 3 种 名 字 空 间 。identifiers 保存 一 般 标 识 符 ; externals 存放 声 
明 为 extern 的 标识 符 ， 用 于 警告 外 部 标识 符 声 明 冲 突 ; globals 是 identifiers 表 的 一 部 分 ， 保 存 了 
具有 文件 作用 域 的 标识 符 。 

编译 器 定义 的 内 部 标号 保存 在 labels 中 ， 类 型 标记 存放 在 types 中 。 

这 些 符 号 表 都 是 由 哈 希 表 组 成 的 列表 ， 每 个 符号 表 对 应 一 个 作用 域 : 


(sym.c types)= 
struct table { 
int level; 
Table previous; 
struct entry { 
struct symbol sym; 
struct entry *link; 
} *buckets[256]; 
Symbol all; 
ys 
#define HASHSIZE NELEMS(((Table)0)->buckets) 
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对 于 Table 类 型 的 一 个 值 ， 如 identifiers， 指 向 了 一 个 table 结构 ， 该 结构 将 某 作 用 域内 的 符 
号 保存 在 一 个 哈 希 表 中 ，level 域 的 值 指明 作用 域 ; buckets 域 是 一 个 指针 数组 ， 每 个 指针 指向 一 
个 哈 希 链 ; previous 域 指 向 外 层 作 用 域 对 应 的 table. 
哈 希 链 的 每 个 人 口 保存 了 一 个 symbol 结构 和 一 个 指向 链 中 下 一 入 口 的 指针 。 如 果 要 查找 一 
个 符号 ， 则 根据 关键 字 计 算 哈 希 函 数值 ， 找 到 相应 的 哈 希 链 ， 然 后 通过 遍历 该 链 找到 相应 的 符 
号 ; 如 果 未 发 现 该 符号 ， 则 通过 previous 域 在 外 层 作 用 域 的 入 口中 进行 查找 。 
在 每 个 表 结 构 中 ，all 域 指向 由 当前 及 其 外 层 作 用 域 中 所 有 符号 组 成 的 列表 的 头 ， 该 列表 是 
通过 symbol 的 up 域 连接 起 来 的 。 
除了 表 labels 外 ,符号 表 模 块 负责 对 所 有 向 外 导出 的 Table 进行 初始 化 : 
(sym.c data)= 32 
static struct table 
cns = { CONSTANTS }, 
ext = { GLOBAL }, 
ids = { GLOBAL }, 
tys = { GLOBAL }; 
Table constants = &cns; 
Table externals = &ext; 
Table identifiers = &ids; 
Table globals = &ids; 
Table types = &tys; 
Table labels; 
globals 指向 作用 域 为 GLOBAL 的 标识 符 表 ，identifiers 指向 当前 作用 域 的 表 。types 将 在 第 4 章 
中 介绍 。funcdefn 会 为 每 个 函数 创建 一 个 标号 表 。 
内 层 符 套 作用 域 的 表 都 是 动态 创建 的 ， 并 且 与 相应 外 层 的 表 进 行 链接 : 


{sym.c functions)= 3l 
Table table(tp, level) Table tp; int level; { 
Table new; 


NEWO(new, FUNC); 
new->previous = tp; 
new->level = level; 
if (tp) 

new->all = tp->all; 
return new; 


} 

函数 被 编译 完成 后 ， 所 有 动态 分 配 的 表 都 被 释放 ， 因 此 ， 动 态 表 是 在 FUNC 分 配 区 中 进行 分 
配 的 。 

图 3-1 说 明了 lec 在 编译 到 本 章 第 一 个 示例 程序 (第 26 页 ) 的 第 7 行 时 ， 源 于 identifiers 的 
4 个 符号 表 的 情况 。 图 中 所 有 entry 结构 只 显示 了 它们 的 symbol 中 name 和 up 域 以 及 它们 的 link 
域 。 实 线 显示 了 下 列 域 信 息 : previous 域 ， 把 表 连 接 起 来 ; buckets 和 link 域 ， 将 各 入 口 连接 在 一 
起 ; 还 有 name 域 。 虚 线 从 all AI symbol 的 up 域 发 出 。 

all 域 初始 化 成 指向 外 层 表 的 list， 因 此 ， 从 table 的 a 纪 ] 域 开始 ， 就 可 以 访问 所 有 作用 域 
的 所 有 符号 。foreach 函数 使 用 该 功能 扫描 一 个 表 ， 并 对 指定 作用 域 中 的 所 有 符号 执行 给 定 
函数 。 
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图 3-1 第 26 页 示例 程序 编译 到 第 7 行 时 符号 表 的 情况 


(sym.c functions) += 30 32 
void foreach(tp, lev, apply, cl) Table tp; int lev; 
void (*apply) ARGS( (Symbol, void *)); void *cl; { 
while (tp && tp->level > lev) 
tp = tp->previous; 
if (tp && tp->level == lev) { 
Symbol p; 
Coordinate sav; 
Sav = src; 
for (p = tp->all; p && p->scope == lev; p = p-pup) { 
src = p->src; 
(*apply)(p, cl); 


src = sav; 
} 
} 
while 循环 查找 与 作用 域 对 应 的 表 ， 如 果 找 到 了 ，foreach 函数 就 把 每 个 符号 的 定义 位 置 保 
存在 全 局 变量 sro 中 ， 并 为 该 符号 调用 apply 函数 。cl 是 一 个 指针 ， 它 指向 与 调用 相关 的 数据 
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closure， 该 数据 由 foreach 的 调用 者 提供 ， 如 果 有 需要 ， 这 些 数 据 将 传递 给 apply 函数 以 便 其 访 
lal, sre 中 保存 的 信息 使 得 apply 引发 的 诊断 程序 能 够 指向 正确 的 源 程序 坐标 。 

for 循环 遍历 表 的 all 链表 ， 直 到 链 尾 或 遇 到 较 小 层 数 作用 域 中 的 符号 。 从 严格 意义 上 说 ，all 
并 不 是 必需 的 ， 因 为 foreach 可 以 遍历 哈 希 链表 ， 但 是 ， 按 照 与 哈 希 地 址 无 关 的 顺序 为 每 个 符号 
调用 apply, 会 使 产生 的 代码 的 顺序 与 机 器 无 关 。 


3.3 ”作用 域 的 改变 
全 局 变量 level 的 值 和 对 应 的 表 一 起 表示 了 一 个 作用 域 : 


(sym.c exported data) += 29 38 
extern int level; 
(sym.c data)+= 30 


int level = GLOBAL; 
由 于 作用 域 按 照 不 同 的 目的 对 符号 进行 划分 ， 所 以 作用 域 的 数目 会 比 源 代码 中 复合 语句 的 数 
目 多 。 比 如 ， 对 于 常量 和 参数 都 有 不 同 的 作用 域 。 
进入 一 个 新 的 作用 域 时 ，level 将 递增 。 


(sym.c functions)+= 3i 2 
void enterscope() { 
++level; 
} 
退出 作用 域 时 ，level 将 递减 ， 相 应 的 identifiers 和 types 表 也 随 之 撤销 。 
(sym.c functions) += 233 
void exitscape() { 
rmtypes (level); 


if (types->level == level) 
types = types->previous; 

if Cidentifiers->level == level) { 
(warn if more than 127 identifiers) 
identifiers = identifiers->previous; 

} 

~-level; 


} 
当前 作用 域 对 应 的 表 只 有 在 必需 时 才 会 被 创建 。 在 C 中 ， 声 明 新 符号 的 作用 域 是 非常 少 的 ， 
所 以 采取 懒惰 的 表 分 配方 法 可 以 节省 时 间 ， 但 是 exitscope 函数 必须 检查 层 数 以 决定 是 否 有 表 需 
要 撤销 。 对 于 在 撤销 的 作用 域 中 定义 的 带 标记 的 类 型 ，rmtypes 将 从 其 类 型 缓冲 中 删除 ， 参 见 
aa i 


3.4 查找 和 建立 标识 符 


install 函数 为 给 定 的 name 分 配 一 个 符号 ， 并 把 该 符号 加 入 与 给 定 作用 域 层 数 相对 应 的 表 中 ， 
如 果 需 要 ， 还 将 建立 一 个 新 表 。 该 函数 返回 一 个 指向 符号 的 指针 。 
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(sym.c functions) += 32 33 
Symbol install(name, tpp, level, arena) 
char *name; Table *tpp; int level, arena; { 
Table tp = *tpp; 
struct entry *p; 
unsigned h = (unsigned) name&(HASHSIZE-1) ; 


if Clevel > 0 && tp->level < level) 
tp = *tpp = table(tp, level); 
NEWO(p, arena); 
p->syM.name = name; 
p->sym.scope = level; 
p->sym.up = tp->all; 
tp->all = &p->sym; 
p->link = tp->buckets[h]; 
tp->buckets[h] = p; 
return &p->sym; 
} 


name 存放 了 字符 串 ， 根 据 其 地 址 可 以 计算 它 的 哈 硕 值 。 

tpp 是 一 个 指向 表 的 指针 。 如 果 *tpp 指向 某 作用 域 的 表 ， 如 identifiers， 并 且 目 前 没有 与 参 
数 level 给 定 的 作用 域 相对 应 的 表 ， 则 install 将 先 为 参数 level 给 定 的 作用 域 分 配 一 个 表 ， 并 更 新 
*tpp ; 然后 install 分 配 一 个 人 口 ， 将 该 项 清 零 ， 最 后 初始 化 符号 的 某 些 域 ,并 把 该 入 口 加 入 哈 希 
链表 中 。level 必须 为 0 或 不 小 于 该 表 的 作用 域 层 数 ， 如 果 level 为 0， 则 表示 name 应 该 建立 在 
*tpp 表示 的 表格 中 。install 接受 一 个 指明 相应 分 配 区 的 参数 ， 如 果 有 函数 原型 ， 则 使 其 中 的 符号 
可 以 永久 保存 ， 即 使 它们 是 在 内 层 作 用 域 中 声明 的 。 

lookup 函数 实现 在 表 中 查找 一 个 名 字 ， 查 找 的 关键 字 是 符号 的 name 域 。 如 果 找 到 了 ， 该 函 
数 将 返回 一 个 指向 符号 的 指针 ， 和 否则 返回 空 指针 。 

{sym.c functions) += 3 4 
Symbol lookup(name, tp) char *name; Table tp; { 


struct entry *p; 
unsigned h = (unsigned)name&(HASHSIZE-1) ; 


do ; 
for (p = tp->buckets[h]; p; p = p->link) 
if (name == p->sym.name) 
return &p->sym; 
while ((tp = tp->previous) != NULL); 
return NULL; 


在 代码 中 ， 内 层 循 环 扫 描 哈 希 链 ， 外 层 循环 扫描 外 层 作 用 域 。 字 符 串 模 块 保证 当 且 仅 当 两 个 字符 
串 完 全 相同 时 ， 它 们 才 是 同一 个 副本 的 ， 所 以 字符 串 的 比较 非常 简单 。 


3.5 标号 


符号 表 模 块 还 提供 管理 标号 和 常量 的 图 数 。 这 些 管 理 函 数 与 lookup 和 install 相似 ,但 是 不 
涉及 作用 域 管 理 。 查 找 标号 和 常量 时 ， 如 果 有 必要 ， 就 会 建立 这 些 标号 和 常量 ， 因 此 查找 总 会 成 
功 。 查 找 的 关键 字 是 联合 u 中 标号 和 常量 特有 的 域 。 


34 HIF 


编译 器 产生 的 标号 和 源 程 序 中 标号 的 内 部 表示 都 采取 整数 。 函 数 genlabel 通过 累加 计数 器 产 
生 一 个 整数 : 


(sym.c functions) += 3 34 
int genlabel(n) int n; { 
static int label = 1; 


label += n; 
return label - n; 


”genlabel 也 可 以 用 于 产生 唯一 的 、 匿 名 的 名 字 ， 如 产生 一 个 临时 变量 的 名 字 。 
对 于 每 个 标号 将 分 配 一 个 符号 ，uLlabel 保存 了 标号 : 


(labels 34)= 28 
struct { 
int label; 
Symbol equatedto; 
+ 1; 


如 果 两 个 或 更 多 个 内 部 标号 指向 相同 的 位 置 ， 则 这 些 标号 的 equatedto 域 指向 其 中 一 个 
标号 [o] 

源 程 序 中 的 每 个 标号 都 有 相应 的 一 个 内 部 标号 ， 这 些 内 部 标号 和 编译 器 产生 的 其 他 标号 都 保 
存在 labels 表 中 。 对 于 每 个 函数 都 会 建立 一 个 这 样 的 表 (参见 11.6 节 )， 并 由 findlabel 函数 进行 管 
理 。findlabel 函数 的 输入 参数 是 一 个 标号 数 ， 并 返回 该 标号 对 应 的 符号 ， 如 果 需 要 ， 则 会 建立 该 
符号 、 进 行 初 始 化 并 通知 编译 后 端 。 


和 
(sym.c functions) += 34 35 
Symbol findlabel(lab) int lab; { 
struct entry *p; 
unsigned h = lab&(HASHSIZE-1) ; 


for (p = labels->buckets[h]; p; p = p->link) 
if (lab == p->sym.u.1. label) 

return &p->sym; 

NEWO(p, FUNC); 

p->sym.name = stringd(lab); 

p->sym.scope = LABELS; 

p->sym.up = labels->all; 

labels->all = &p->sym; 

p->link = labels->buckets[h]; 

labels->buckets[h] = p; 

p->sym.generated = 1; 

p->sym.u.1.label = Jab; 

(*IR->defsymbol) (&p->sym) ; 

return &p->sym; 

} 


‘generated 是 一 位 二 进 制 位 域 <symbol fags>， 表 示 一 个 产生 的 符号 。 对 于 产生 的 这 些 符号 名 字 ， 
某 些 编译 后 端 可 以 利用 特殊 的 格式 以 避免 表 在 连接 上 的 混乱 。 


36 ”常量 . 
对 表达 式 中 作为 操作 数 出 现 的 编译 时 常量 的 引用 ， 常 处 理 成 一 个 指向 该 常量 的 符号 的 指针 。 
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这 些 符号 保存 在 constants 表 中 。 与 labels 一 样 ， 这 类 表 也 是 与 作用 域 无 关 的 ; 所 有 常量 符号 的 
scope 域 都 取 值 CONSTANTS. 
常量 的 实际 值 用 下 面 联合 的 实例 表示 : 


Ra 


(sym.c typedefs) += 

typedef union value { 
/* signed */ char sc; 
short ss; 
int i; 
unsigned char uc; 
unsigned short us; 
unsigned int u; 
float f; 
double d; 
void *p; 

} Value; 


按照 常量 的 类 型 ， 其 值 存放 在 相应 域 中 ， 例 如 ， 整 数 存放 在 i 域 ， 无 符号 字符 存放 在 uc 域 ， 
如 此 等 等 。 
在 constants 表 中 建立 一 个 常量 时 ， 该 常量 的 类 型 (Type) 存放 在 符号 结构 的 type 域 ， 我 们 对 
C 的 数据 类 型 进行 了 编码 (参见 第 4 章 )， 其 值 存 放 在 uc.v 中 : 
(constants 35) 三 28 
struct { 
Value v; 
Symbol loc; 
rE; 


在 某 些 目标 机 器 上 ， 有 些 常量 ， 主 要 是 浮 点 数 ， 不 能 存储 在 指令 中 ， 所 以 编译 器 产生 一 个 静 
态 变量 并 将 其 初始 化 成 该 浮 点 常量 的 值 。 对 于 这 些 常量 , u.c.loc 指向 了 产生 的 变量 所 对 应 的 符号 。 
总 体 上 ，type 和 uc 域 保存 了 常量 的 所 有 已 知 信息 。 

对 于 每 个 常量 来 说 ，constants 中 只 保存 了 一 个 实例 ， 例 如 ,“hello world” 在 程序 中 出 现 了 
三 次 ， 所 有 这 三 次 引用 都 指向 了 表 中 的 同一 个 符号 。constant 函数 实现 了 在 常量 表 中 查找 给 定 类 
型 和 值 的 常量 ， 如 果 需 要 ， 将 在 表 中 增加 该 常量 ， 函 数 返 回 一 个 指向 符号 的 指针 。 常 量 不 会 从 表 
中 删除 。 


(sym.c functions) += 34 36 
Symbol constant(ty, v) Type ty; Value v;{ 
struct entry *p; 
unsigned h = v.u&(HASHSIZE-1); 


ty = unqual (ty); 
for (p = constants->buckets[h]; p; p = p->link) 
if (eqtype(ty, p->sym.type, 1)) 
(return the symbol if p's value == v 36) 
NEWO(p, PERM); 
p->sym.name = vtoa(ty, v); 
p->sym.scope = CONSTANTS; 


36 


p->sym.type = ty; 
p->sym.sclass = STATIC; 
p->sym.u.C.v = V; 


p->link = constants->buckets[h]; 


p->sym.up = constants->al1; 
constants->all = &p->sym; 
constants->buckets[(h] = p; 


(announce the constant, if necessary 36) 


p->sym.defined = 1; 
return &p->sym; 
} 


unqual 函数 返回 类 型 ( Type) 的 未 限定 的 (unqualified) 形式 ， 即 去 掉 类 型 中 的 const 和 volatile, 
eqtype 函数 用 于 测试 类 型 是 否 相 同 (参见 4.7 节 )。 如 果 v 出 现在 表 中 ， 则 返回 指向 其 符号 的 指 
针 ; 否则， 在 表 中 新 增 一 个 符号 并 初始 化 。name 域 存放 了 vtoa 函数 返回 的 常量 的 字符 串 表示 。 
vtoa 返回 的 值 只 对 整 型 和 指向 常量 的 指针 有 用 ， 对 于 其 他 类 型 ， 返 回 的 字符 串 并 不 能 可 靠 地 
描述 对 应 的 数值 。 常 量 的 查找 是 基于 它们 实际 的 值 ， 而 不 是 它们 的 字符 串 表 示 ， 因 为 有 些 浮 点 数 
不 能 直接 自然 地 表示 成 字符 串 。 例 如 ， 和 常量 表达 式 ( double )( float) 0.3 可 以 将 0.3 截 尾 成 一 个 与 
机 器 相关 的 值 ， 这 种 效果 就 不 能 用 有 效 的 字符 串 表 示 出 来 。 


类 型 运算 符 决定 了 联合 中 被 比较 的 域 : 


(Sym.c macros)= 


#define equalp(x) v.x == p->sym.u.c.v.x 


(return the symbol if p's value == v 36)= 


switch (ty->op) { 


case CHAR: if (equalp(uc)) 
case SHORT: if Cequalp(ss)) 
case INT: if (equalp(i)) 


case UNSIGNED: if (equalp(u)) 
case FLOAT: if (equalp(f)) 
case DOUBLE: if Cequalp(d)) 
case ARRAY: case FUNCTION: 
case POINTER: if (equalp(p)) 
} 


return &p->sym; 
return &p->sym; 
return &p->sym; 
return &p->sym; 
return &p->sym; 
return &p->sym; 


return &p->sym; 


break; 
break; 
break; 
break; 
break; 
break; 


break; 


constant 调用 defsymbol， 通 知 编译 后 端 这 些 常量 可 以 出 现在 dag (无 环 有 向 图 ) F: 


(announce the constant, if necessary 36)= 
if (ty->u.sym && !ty->u.sym->addressed) 


(*IR->defsymbol) (&p->sym) ; 


36 


对 于 基本 类 型 ， 如 整 型 和 浮 点 类 型 ， 只 有 对 addressed 标志 进行 了 测试 ，lcc 完成 这 些 配置 后 


才能 出 现在 dag 中 。 参 见 4.2 节 和 5.1 节 。 


在 编译 前 端 和 后 端 中 都 有 大 量 的 整 型 常量 。intconst 封装 了 建立 和 通知 整 型 常量 的 功能 。 


(sym.c functions)+= 
Symbol intconst(n) int n; { 
Value v; 


v.i = n; 
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return constant(inttype, v); 


3.7 产生 的 变量 


编译 的 前 端 会 为 各 种 目的 产生 许多 局 部 变量 。 例 如 ， 可 以 产生 静态 的 变量 ， 用 于 保存 超出 一 
行 的 常量 (如 字符 串 ) 和 switch 语句 的 跳 转 表 等 ， 也 可 以 产生 一 些 局 部 变量 用 于 函数 传递 和 返回 
结构 ， 以 及 用 来 保存 条 件 表 达 式 的 结果 和 switch 语句 的 测试 值 。genident 根据 给 定 的 类 型 、 存 储 
类 别 和 作用 域 ， 产 生 一 个 标识 符 并 初始 化 ; 

(sym.c functions) += % 3 


Symbol genident(scls, ty, lev) int scls, lev; Type ty; { 
Symbol p; 


NEWO(p, lev >= LOCAL ? FUNC : PERM); 

p->name = stringd(genlabel(1)); 

p->scope = lev; 

p->sclass = scls; 

p->type = ty; 

p->generated = 1; 

if (lev == GLOBAL) 
(*IR->defsymbol) (p); 

return p; 


(symbol flags 37)= 38 28 
unsigned temporary:1; 
unsigned generated: 1; 
其 中 name 是 由 数字 组 成 的 字符 串 ，generated 标志 被 设置 为 1。 参数 和 局 部 变量 在 其 他 地 方 通 
知 编译 后 端 ， 而 产生 的 全 局 变量 在 此 就 通过 调用 后 端的 defsymbol 接口 函数 通知 后 端 。 队 指 
向 一 个 数据 结构 ， 该 数据 结构 连接 前 端 和 某 个 具体 的 后 端 ，5.11 节 说 明了 这 种 连接 是 如 何 初始 
化 的 。 
临时 变量 是 另外 一 类 产生 的 变量 ， 它 们 都 具有 temporary 标志 : 
(sym.c functions) += 


37 
Symbol temporary(scls, ty, lev) Type ty; int scls, lev; { 
Symbol p = genident(scls, ty, lev); 


p->temporary = 1; 
return p; 


编译 后 端 有 时 也 需要 产生 临时 变量 ， 比 如 为 了 腾空 寄存 器 。 后 端 由 于 不 知道 类 型 系统 ， 所 以 
不 能 直接 调用 temporary 函数 。newtemp 接受 一 个 类 型 后 级 ， 通 过 调用 btot 将 该 后 级 映射 为 相应 
的 类 型 ， 再 利用 该 类 型 调用 temporary。 

(sym.c functions) += 37 


Symbol newtemp(sclass, tc) int sclass, tc; { 
Symbol p = temporary(sclass, btot(tc), LOCAL); 


38 


HAF 
(*IR->local)(p); 
p->defined = 1; 
return p; 
} 
(symbol flags 37) += 分 137 28 


unsigned defined:1; 


调用 newtemp 发 生 在 代码 生成 的 时 候 ， 如 果 像 前 端的 临时 变量 那样 进行 通知 ， 则 为 时 已 晚 


因此 ，newtemp 调用 local 来 通告 它们 。 标 志 defined 在 通知 完 后 端 之 后 被 置 成 1。 
深入 阅读 


在 块 


lec 的 符号 表 模 块 仅仅 实现 了 C 必需 的 功能 。 针 对 其 他 语言 还 需要 实现 更 多 的 功能 ， 例 如 ， 
结构 化 ( block-structured) 语言 中 允许 过 程 座 套 ， 在 同一 时 刻 可 能 有 多 组 参数 和 局 部 变量 可 


见 。 新 的 面向 对 象 的 语言 和 具有 显 式 作用 域 指令 的 语言 中 有 更 多 的 作用 域 ， 有 些 语 言 在 同一 时 刻 


多 个 独立 的 符号 表 。 
Fraser and Hanson ( 1991b) 介绍 了 lce 符号 表 模 块 的 发 展 情况 。 
Knuth ( 1973b) 的 6.4 节 给 出 了 哈 希 方法 的 详细 分 析 ， 介绍 了 好 的 哈 希 函数 的 特点 。 有 许多 


建议 有 助 于 设计 好 的 哈 希 函数 ， 例 如 ，Aho，Sethi and Ullman ( 1986) 的 7.6 节 。 
练习 


Kl 


3.2 


3.3 


3.4 


为 符号 表 的 喻 希 入 口 表 设计 一 种 更 好 的 哈 希 函数 。 可 使 用 Aho, Sethi and Ullman ( 1986 ) 的 7.6 节 中 的 
一 个 函数 ， 用 该 函数 能 提高 lcc 的 运行 速度 吗 ? 

lce 不 会 删除 constants 表 中 的 入 口 ， 这 种 方法 在 什么 时 候 会 带 来 问题 ? 设计 并 实现 一 种 解决 方法 ， 检 验 
该 方法 的 效果 。 该 方法 带 来 的 效果 与 其 开销 相 比 是 否 值得 ? 

loo 最 初 使 用 一 个 哈 希 表 处 理 所 有 的 符号 表 (Fraser and Hanson, 1991b), 使 用 这 种 方法 ,映射 到 相同 
哈 希 桶 的 所 有 符号 存储 在 哈 希 链 中 ， 并 按照 scope 值 降序 排列 。lookup 函数 只 需要 搜索 一 个 蛤 希 表 。 
采用 这 种 方法 ，install 和 enterscope 函数 非常 容易 ， 但 是 exitscope 函数 会 变 得 更 复杂 ， 它 必须 扫描 所 
有 的 哈 希 链 ， 删 除 当 前 作用 域 层 的 符号 。 现 在 lcc 采取 的 设计 方法 在 有 些 计算 机 上 和 运行 较 快 ， 但 在 某 些 
机 器 上 就 不 一 定 比 原来 的 方法 更 快 了 。 

请 实现 原来 的 设计 方案 ， 注 意 保证 能 够 正确 访问 全 局 变量 。 试 比较 哪 种 方法 更 易 理 解 ， 哪 种 方法 
更 快 。 

sym.c 提供 了 数据 和 函数 ， 为 调试 器 生成 标识 符 和 符号 表 信息 的 交叉 引用 列表 。-x 选 项 使 lcc 把 每 个 符 
号 的 uses 域 置 成 一 个 指向 Coordinate 的 指针 列表 ， 表 示 该 符号 的 使 用 情况 。sym.c 提供 函数 ， 


(sym.c exported functions) = 38 
extern void use ARGS((Symbol p, Coordinate src)); 


该 函数 把 sre 加 入 p->uses， 还 提供 函数 : 


(sym.c exported data)+= 32 
extern List loci, symbols; 


(sym.c exported functions) += 38 
extern void locus ARGS((Table tp, Coordinate *cp)); 
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loci 和 symbols 分 别 保存 了 指向 Coordinate 和 Symbol 的 指针 。symbols 表 中 的 每 个 人 口 是 一 个 链表 的 
尾 ， 该 链表 由 在 loci 对 应 的 源 代码 位 置 上 可 见 的 符号 组 成 ， 从 入 口 的 符号 出 发 ,通过 up 域 可 以 访问 所 
有 在 该 点 可 见 的 符号 。locus 函数 把 tp->all 和 cp 加 入 symbols 和 loci 中 。tp->all 指向 最 近 加 入 *tp 表 的 
符号 ， 即 当前 可 见 符号 列表 的 尾 。 请 实现 use Fil locus 函数 ， 每 个 函数 不 超过 5 行 代码 。 
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类 型 





C 程序 中 具有 丰富 的 数据 类 型 ， 包 括 声明 中 显 式 定义 的 类 型 和 用 作 表 达 式 中 间 类 型 的 导出 类 
型 。 例如， 下 面 的 赋值 语句 包含 3 种 不 同类 型 ; 

int *p, x; 

*p = X; 
x 是 一 个 存放 整数 的 单元 的 地 址 ， 因 此 x 的 地 址 的 类 型 ( 即 它 的 左 值 ) 是 “指向 一 个 整数 的 指 
针 ”。x 的 值 的 类 型 ( 即 它 的 右 值 ) 是 整数 (从 声明 中 可 以 得 到 )。 同 样 ，p 的 左 值 的 类 型 是 指向 一 
个 整数 的 指针 的 指针 ，p 的 右 值 的 类 型 是 指向 一 个 整数 的 指针 ，*p 的 类 型 是 整数 。lcc 在 编译 赋 
值 语句 时 必须 处 理 所 有 这 些 类 型 。 

lcc 实现 了 类 型 表示 和 一 组 该 表示 之 上 的 函数 ， 本 章 将 对 此 进行 介绍 。 函 数 包 括 创 建 类 型 的 
类 型 构造 函数 ( type constructor) 以 及 测试 类 型 的 类 型 断言 函数 ( type predicate). lee 还 必须 实现 
类 型 检查 (type checking)， 确 保 声明 和 表达 式 遵 守 语 言 制定 的 规则 。 类 型 检查 使 用 本 章 介绍 的 断 
言 函 数 ， 详 细 信息 参见 第 9 章 和 第 11 章 。 


4.1 类 型 表示 


C 语言 的 类 型 通常 用 英文 的 前 绥 形 式 描绘 ， 所 谓 前 绥 形 式 ， 就 是 指 类 型 操作 数 在 类 型 操作 符 
之 后 出 现 。 例 如 ，int *p 声明 p 是 一 个 指向 int 的 指针 ， 就 是 C 类 型 int * 的 前 绥 表 示 ， 指 针 是 操 
作 符 ，int 是 操作 数 。 同 样 char *(*strings)[10] 将 strings 说 明 为 : 

一 个 指针 :指向 

一 个 大 小 为 10 的 数组 ， 每 个 数组 元 素 是 一 个 
指针 ， 指 向 
字符 
操作 数 在 它们 各 自 的 操作 符 下 以 阶梯 方式 缩 进 。 

表示 这 种 前 级 类 型 规范 的 方法 有 很 多 。 例 如 ， 一些 老 的 C 编译 器 使 用 位 串 来 表示 ， 类 型 操作 
符 和 基本 类 型 用 若干 位 编码 。 位 串 表 示 非 常 紧凑 并 易于 操作 ， 但 是 一 般 会 对 基本 类 型 和 操作 符 的 
数目 做 一 定 限 制 ， 并 且 不 能 拥有 表示 大 小 的 数据 ， 例 如 不 能 表示 数组 的 大 小 。 

loc 通过 能 反映 类 型 的 前 级 规范 的 链接 结构 来 表示 类 型 。 类 型 节点 定义 如 下 : 


(types.c typedefs)= 50 
typedef struct type *Type; = 
(types.c exported types) = 2 
struct type { 
int op; 
Type type; 


int align; 
int size; 
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union { 
(types with names or tags 41) 
(function types 48) 

} u; 

Xtype x; 


op 域 存放 整 型 的 类 型 操作 符 编 码 ，type 域 存放 类 型 操作 数 。 操 作 符 可 以 是 下 列 全 局 枚 举 常 
量 值 : 


CHAR LONG ARRAY FUNCTION 
INT ENUM STRUCT CONST 
UNSIGNED FLOAT UNION VOLATILE 
SHORT DOUBLE POINTER VOID 


操作 符 CHAR, INT, UNSIGNED, SHORT, LONG #il ENUM 定义 了 整数 类 型 (integral type) ; 
FLOAT, DOUBLE 定义 了 浮 点 类 型 ( floating type)。 这 些 类 型 都 可 以 看 作 算术 类 型 arithmetic 
type). BR ENUM 类 型 外 ， 这 些 类 型 都 没有 操作 数 。ENUM 类 型 的 操作 数 是 与 其 兼容 的 整数 类 
型 ， 即 枚 举 标识 符 的 类 型 。 对 于 lcc 而 言 ， 枚 举 标 识 符 的 类 型 总 是 整 型 (int) (将 在 随后 的 4.6 节 
解释 )。 

操作 符 ARRAY, STRUCT, UNION 表示 聚合 类 型 (aggregate type). STRUCT 和 UNION 没 
有 操作 数 ， 它 们 的 域 存放 在 结构 或 联合 标记 的 附加 符号 表 入 口中 。ARRAY 的 操作 数 是 数组 元 素 
的 类 型 (element type). POINTER 和 FUNCTION 分 别 定 义 指针 类 型 (pointer type) 和 函数 类 型 
( function type)， 它 们 的 操作 数 分 别 指明 被 引用 类 型 (referenced type) 和 返回 类 型 (return type). 
操作 符 CONST 和 VOLATILE 说 明 限 定 类 型 qualified type)， 它 们 的 操作 数 就 是 类 型 的 未 限定 形 
式 。CONST 加 上 VOLATILE 也 是 一 个 类 型 操作 符 ， 它 说 明 一 个 既是 const 又 是 volatile 的 类 型 。 
VOID 操作 符 表 示 void 类 型 ， 没 有 操作 数 。 

align 域 和 size 域 以 字 节 为 单位 给 出 类 型 的 对 齐 字 节 数 和 该 类 型 对 象 的 大 小 。 第 5 章 的 代码 
生成 接口 中 规定 ，size 必须 是 align 的 整数 倍 。 编 译 器 后 端 必须 为 变量 分 配 空间 ， 使 得 变量 地 址 
是 变量 类 型 的 对 齐 字 节 数 的 整数 倍 。 

x 域 扮演 的 角色 与 它 在 符号 结构 symbols 中 的 一 样 ; 编译 器 后 端 通过 定义 Xtype， 问 类 型 结 
构 中 加 入 与 目标 机 器 相关 的 域 。 这 一 机 制 通 常用 于 对 调试 器 的 支持 。 

输出 对 type 节点 的 声明 可 以 展示 Type 的 内 部 信息 ， 后 端 可 以 读 取 size 和 align 域 ， 并 且 读 
Bx ih. lec 约定 ， 后 端 只 允许 检查 这 些 域 ， 而 前 端 可 以 访问 Type 的 所 有 域 。 

op, type, size 和 align 域 给 出 了 处 理 类 型 所 需 的 大 部 分 信息 。 对 带 有 名 字 或 标记 的 未 限定 类 
型 ， 包 括 固有 (built-in) 类 型 、 结 构 和 联合 类 型 以 及 枚 举 类 型 ，u.sym 域 指向 符号 表 入 口 ， 符 号 
表 入 口 将 给 出 更 多 与 类 型 有 关 的 信息 。 

(types with names or tags 41)= a 

Symbol sym; 

符号 表 入 口 给 出 了 类 型 名 。 此 外 ， 如 果 该 类 型 的 常量 可 以 作为 指令 的 一 部 分 ，u.sym-> 
addressed 的 值 为 0。u.sym->type 反问 指 问 类 型 自身 ， 可 用 于 将 标记 映射 成 类 型 。 每 个 结构 、 联 合 
和 枚 举 类 型 都 有 一 个 符号 表 人 人 口 ， 每 种 基本 类 型 对 应 一 个 符号 表 入 口 ， 所 有 指针 类 型 共用 一 个 符 
号 表 入 口 。 这 些 入 口 都 出 现在 types 表 中 ， 参 见 4.2 节 中 的 详细 描述 。 使 用 这 种 表示 ，sym.c 中 定 
义 的 函数 可 用 于 管理 types。 
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可 以 用 带 括 号 的 前 组 形式 描述 类 型 ， 这 种 形式 与 前 面 介绍 的 英文 前 绥 形 式 相 似 。 例 如 ， 在 
MIPS 上 int 类 型 表示 为 : 


CINT 4 4 [“int"]) 


第 一 个 4 是 对 齐 字 节 数 ， 第 二 个 4 是 大 小 ,[“int”] 表示 名 为 int 的 类 型 的 指向 符号 表 入 口 的 指针 。 
其 他 类 型 的 描述 相似 ， 例 如 : 


(POINTER 4 4 (INT 4 4 ["int"]) ["T*"]) 


表示 指向 int 的 指针 。 类 型 名 T* 表示 用 于 所 有 指针 类 型 对 应 的 唯一 的 符号 表 入 口 。 

如 果 随 后 在 理解 某 些 问题 时 不 需要 对 齐 字 节 数 、 大 小 和 符号 表 指 针 ， 它 们 可 以 从 解释 中 省 略 
(但 不 能 从 代码 中 省 略 )。 例 如 ， 本 节 开 始 给 出 的 类 型 可 以 简写 为 : 

CINT) 

(POINTER CINT)) 

(POINTER (ARRAY 10 (POINTER (CHAR)))) 
最 后 一 行 描述 的 类 型 是 指向 一 个 数组 的 指针 ， 该 数组 有 10 个 元 素 ， 每 个 元 素 是 指向 char 的 指针 。 
数组 类 型 的 size 域 总 是 保存 数组 的 实际 大 小 。 元 素 的 个 数 可 以 用 数组 的 大 小 除 以 元 素 类 型 的 大 小 
而 获得 。 因 此 ， 表 示 含 有 10 个 int 元素 的 数组 类 型 的 更 精确 描述 是 : 


(ARRAY 4 40 (INT 4 4 ["int"])) 


但 是 ，lcc 通常 约定 描述 为 (ARRAY 10 (INT))。 不 完全 类 型 (incomplete type) 是 指 类 型 大 
小 未 知 ，size 域 等 于 0 的 类 型 。 不 完全 类 型 由 省 略 了 大 小 的 声明 得 来 ， 例 如 : 


int a[]; 
extern struct table *identifiers; 


不 透明 的 指针 (opaque pointer)， 例 如 指向 lce 的 table 结构 的 指针 ， 是 不 完全 类 型 。 如 果 不 
完全 类 型 的 大 小 对 识别 不 完全 类 型 非常 重要 ， 在 解释 中 就 需要 给 出 size 域 。 
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类 型 检查 的 基本 操作 之 一 是 判断 两 个 类 型 是 否 等 价 。 如 果 任 意 类 型 只 有 一 份 副本 ， 等 价 测试 
就 可 以 简化 。 这 与 字符 串 的 比较 是 一 个 道理 : 任意 字符 串 只 保留 一 份 副本 ， 串 的 比较 就 很 简单 。 
正如 stringn 函数 处 理 字 符 串 ，type 函数 处 理 类 型 。type 管理 类 型 表 typetable: 


(types.c data)= 44 
static struct entry { 
struct type type; 
struct entry *link; 
} *typetable[128]; 


typetable 中 的 每 个 entry 结构 都 保存 一 个 类 型 。type 函数 在 typetable 中 搜索 指定 类 型 或 创建 
一 个 新 的 类 型 : 


(types.c functions)= 44 
static Type type(op, ty, size, align, sym) 
int op, size, align; Type ty; void *sym; { 
unsigned h = (hash op and ty 43)&(NELEMS(typetable)-1); 
struct entry *tn; 


x #F 


43 


if (op != FUNCTION && (op != ARRAY || size > 0)) 


(search for an existing type 43) 


NEW(tn, PERM); 


tn->type. 
tn->type. 
tn->type. 
tn->type. 
tn->type. 


op = Op; 

type = ty; 
size = size; 
align = align; 
u. 


sym = sym; 


memset (&tn->type.x, 0, sizeof tn->type.x); 
tn->link = typetable[h]; 
typetable[h] = tn; 
return &tn->type; 


} 


type 总 是 为 函数 类 型 和 不 完全 的 数组 类 型 创建 新 类 型 。 创 建新 类 型 时 , type 初始 化 参数 指定 的 域 ， 
清空 x 域 ， 将 类 型 加 入 相应 的 哈 希 链 中 ， 并 返回 新 类 型 。 

type 在 搜索 typetable 时 ， 利 用 类 型 操作 符 和 操作 数 地 址 的 异 或 值 作 为 哈 硕 值 ， 搜 索 相 应 的 哈 
希 链 ， 寻 找 具 有 相同 操作 符 、 操 作 数 、 大 小 、 对 齐 字 节 数 和 符号 表 入 口 的 类 型 。 


(hash op and ty 43)= 
CopA(Cunsigned) ty>>3)) 


(search for an existing type 43)= 

for (tn = typetable[h]; tn; tn = tn->link) 

if (tn->type.op == op 

&& tn->type.size == size && tn->type.align == align 

&& tn->type.u.sym == sym) 
return &tn->type; 


7 typetable 在 初始 化 时 ， 只 具有 固有 类 型 和 void* 类 型 。 这 些 类 型 也 是 14 个 全 局 变量 的 值 : 


(types.c exported data)= 


extern 
extern 
extern 
extern 
extern 
extern 
extern 
extern 
extern 
extern 
extern 
extern 
extern 
extern 


Type 
Type 
Type 
Type 
Type 
Type 
Type 
Type 
Type 
Type 
Type 
Type 
Type 
Type 


chartype; 
doubletype; 
floattype; 
inttype; 
longdouble; 
Jongtype; 
shorttype; 
signedchar; 
unsignedchar; 
unsignedlong; 
unsignedshort; 
unsi gnedtype; 
voidptype; 
voidtype; 
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&& tn->type.type == ty 


前 端 使 用 这 些 变量 引用 特定 的 类 型 ， 避 免 为 已 知 存在 的 类 型 搜索 typetable。typeInit 函数 初 
始 化 这 些 全 局 变量 和 typetable。 


44 


X 
A 
kp 


二 
(types.c functions) += 42 44 
void typeInitO { 
{typeInit 44) 
J 


与 $.1 节 将 要 描述 的 一 样 ， 每 种 基本 类 型 用 类 型 度量 (type metric) 来 刻画 。 类 型 度量 也 可 以 
看 成 三 元 式 ， 描 述 类 型 大 小 、 最 小 对 齐 字 节 数 以 及 该 类 型 的 常量 是 否 能 出 现在 dag (无 环 有 问 图 ) 
中 。 三 元 式 的 结构 包括 size, align 和 outofline 三 个 域 。 


(typeInit 44)= 44 44 
#define xx(v,name,op,metrics) { \ 
Symbol p = install(string(name), &types, GLOBAL, PERM);\ 
v = type(aop, 0, IR->metrics.size, IR->metrics.align, p);\ 
p->type = v; p->addressed = IR->metrics.outofline; } 


xx(chartype, "char", CHAR, charmetric); 
xx(doubletype, “double”, DOUBLE, doublemetric); 
xx(floattype, "float"; FLOAT, floatmetric); 
xxCinttype, "int, INT, intmetric); 
xx(longdouble, “long double", DOUBLE, doublemetric); 
xx (longtype, “long int", INT, intmetric); 
xx(shorttype, "short", SHORT, shortmetric); 
xx(signedchar, “signed char", CHAR, charmetric); 
xx(unsignedchar, "unsigned char”, CHAR, charmetric); 


xx(unsignedlong, “unsigned long", UNSIGNED,intmetric); 
xx(unsignedshort,”unsigned short" ,SHORT， shortmetric); 
xx(unsignedtype, “unsigned int", UNSIGNED, intmetric); 
#undef xx 


无 符号 整数 类 型 和 有 符号 整数 类 型 具有 相同 的 操作 符 、 大 小 和 对 齐 字 节 数 ， 但 具有 不 同 的 符 
号 表 人 和 人口， 因此 要 为 它们 构建 不 同 的 类 型 。 同 样 ，lce 假设 long 和 int, long double 和 double A 
有 相同 结构 ， 但 每 种 都 是 单独 的 一 种 类 型 。 测 试 某 个 类 型 是 否 表示 长 整数 类 型 ， 只 要 将 该 类 型 与 
longtype 进行 比较 。IR 指向 后 端 提 供 的 接口 记录 (参见 5.11 节 )。 类 型 void 没有 度量 : 

(typeInit 44)+= 44 46 44 

{ 
Symbol p; 
p = install(string("void"), &types, GLOBAL, PERM); 
voidtype = type(VOID, NULL, 0, 0, p); 
p->type = voidtype; 
} 

typelnit 函数 将 符号 表 和 人口 装载 到 3.2 节 定 义 的 types KP types 表 包 含 了 用 标识 符 或 标记 命 
名 的 所 有 类 型 。 基 本 类 型 由 typeInit 装载 ， 且 不 会 被 删除 。exitscope 函数 将 结构 、 联 合 、 枚 举 类 
型 的 符号 表 人 和 人口 从 types 中 删除 时 ， 与 结构 、 联 合 、 枚 举 标记 相关 联 的 类 型 也 必须 从 typetable 中 
删除 。exitscope 调用 rmtypes(lev) 从 typetable 中 删除 那些 u.sym->scope 大 于 或 等 于 lev 的 类 型 ; 


(types.c data) += 分 46 
static int maxlevel; 


(types.c functions) += 全 4s 
void rmtypes(lev) int lev; { 
if (maxlevel >= lev) { 
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Att 
maxlevel = 0; 
for Ci = 0; i < NELEMS(typetable); i++) { 
(remove types with u.sym->scope >= lev 45) 
} 
} 
} 


maxlevel 的 值 是 typetable 中 所 有 在 符号 表 中 有 相关 入 口 的 类 型 的 u.sym->scope 的 最 大 值 。 在 调用 
rmtypes 时 ， 大 多 数 情况 下 不 存在 某 个 符号 表 入 口 的 scope 大 于 或 等 于 lev， 这 时 ，rmtypes 可 以 利 
用 maxlevel 避免 扫描 typetable。 删 除 类 型 后 需要 重新 计算 maxlevel: 


(remove types with u.sym->scope >= lev 45)= 45 
struct entry *tn, **tg = &typetable[i]; 
while ((tn = *tq) != NULL) 
if (tn->type.op == FUNCTION) 
tq = &tn->link; 
else if (tn->type.u.sym && tn->type.u.sym->scope >= lev) 
*tq = tn->link; 
else { 
(recompute max level 45) 
tq = &tn->link; 
} 
(recompute maxlevel 45)= 45 
if (tn->type.u.sym && tn->type.u.sym->scope > maxlevel) 
maxlevel = tn->type.u.sym->scope; 


对 于 函数 类 型 来 说 ， 它 们 的 usym 被 其 他 域 覆盖 ， 而 没有 usym 域 ， 一 般 应 特殊 处 理 。 数 组 
和 限定 类 型 也 没有 usym 域 ， 最 后 一 个 子 句 处 理 了 这 种 情况 。 


43 ”类 型 断言 
typeInit 初始 化 的 全 局 变量 可 用 于 说 明 特殊 类 型 或 者 测试 特殊 类 型 。 例 如 ， 如 果 类 型 y 等 于 


inttype, ty 是 int 类型。 下 面 列 出 了 用 安 实 现 的 类 型 断言 (以 is 开头 )， 通 过 检查 特定 的 类 型 操作 
符 来 测试 类 型 集合 。 大 多 数 操作 作用 于 未 限定 类 型 ， 未 限定 类 型 可 通过 调用 unqual 获得 : 


(types.c exported macros) = 45 
#define isqual(t) ((t)->op >= CONST) 
#define unqual(t) Cisqual(t) ? (t)->type : (t)) 


(types.c exported macros) += 

#define isvolatile(t) ((t)->op == VOLATILE \ 

|] (€t)->op == CONST+VOLATILE) 
#define isconst(t) ((t)->op == CONST \ 

|| (t)->op == CONST+VOLATILE) 
#define isarray(t) Cunqual(t)->op == ARRAY) 
#define isstruct(t) Cunqual(t)->op == STRUCT \ 

|| unqual(t)->op. == UNION) 
#define isunion(t) Cunqual(t)->op == UNION) 
#define isfunc(t) Cunqual(t)->op == FUNCTION) 
#define isptr(t) Cunqual(t)->op == POINTER) 


È 
e 
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#define ischar(t) Cunqual(t)->op == CHAR) 
#define isint(t) (unqual(t)->op >= CHAR \ 
&& unqual(t)->op <= UNSIGNED) 
#define isfloat(t) Cunqual(t)->op <= DOUBLE) 
#define isarith(t) (unqual(t)->op <= UNSIGNED) 
#define isunsigned(t) (unqual(t)->op == UNSIGNED) 
#define isdouble(t) (unqual(t)->op == DOUBLE) 
#define isscalar(t) (unqual(t)->op <= POINTER \ 
|| unqual(t)->op == ENUM) 
#define isenum(t) Cunqual(t)->op == ENUM) 


类 型 操作 符 的 值 在 token.h 中 定义 ， 可 见 上 述 断 言 将 产生 预期 的 结果 。 
44 类 型 构造 器 


type 函数 可 以 构造 任意 类 型 ， 其 他 函数 封装 了 对 type 的 调用 ， 以 构造 特定 类 型 。 例 如 ，ptr 
函数 创建 指针 类 型 ; 


(types.c functions) += 
Type ptr(ty) Type ty; { 
return type(POINTER, ty, IR->ptrmetric.size, 
IR->ptrmetric.align, pointersym) ; 
} 


~ 
GE 


给 定 类 型 ty，ptr 返回 (POINTER ty)。 与 指针 类 型 相应 的 符号 表 入 口 在 初始 化 时 赋 给 了 
pointersym， 类 型 void* 调用 ptr 完成 初始 化 : 


(types.c data)+= . ry) 
static Symbol pointersym; 
(typeInit 44) += 44 44 


pointersym = install(string("T*"), &types, GLOBAL, PERM); 
pointersym->addressed = IR->ptrmetric.outofline; 
voidptype = ptr(voidtype) ; 


ptr 创建 指针 类 型 ，deref 间接 访问 指针 ， 即 deref 返回 引用 类 型 ， 给 定 类 型 (POINTER ty), deref 
返回 ty: 


(types.c functions) += 46.47 
Type deref(ty) Type ty; { 
if Cisptr(ty)) 
ty = ty->type; 
else 
error("type error: %s\n", "pointer expected"); 
return isenum(ty) ? unqual(ty)->type : ty; 
} 


与 下 面 将 要 介绍 的 某 些 类 型 构造 器 一 样 ，deref 在 操作 数 非法 时 产生 错误 。 从 技术 上 说 ， 这 
些 测试 是 类 型 检查 的 一 部 分 ， 不 属于 类 型 构造 ， 将 这 部 分 测试 放 到 类 型 构造 中 ， 可 以 简化 类 型 检 


查 代码 ， 避 免 下 漏 。deref 的 最 后 一 行 处 理 指向 枚 举 的 指针 : 间接 访问 枚 举 指针 必须 返回 与 它 关 
联 的 未 限定 整数 类 型 。unqual 的 定义 已 经 在 4.3 节 中 介绍 了 。 
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array(ty, n, a) 函数 创建 类 型 ( ARRAY n ty)， 结 果 类 型 的 对 齐 字 节 数 为 a， 如 果 a 等 于 0， 
结果 类 型 的 对 齐 字 节 数 就 是 ty 的 对 齐 字 节 数 。array 还 检查 非法 操作 数 。 


(types.c functions}+= 46 4] 
Type array(ty, n, a) Type ty; int n, a; { 
if Cisfunc(ty)) { 
error("illegal type ‘array of Xt'\n", ty); 
return array(inttype, n, 0); 


} 
if Clevel > GLOBAL && isarray(ty) && ty->size == 0) 
error("“missing array size\n"); 
if (ty->size == 0) { 
if Cunqual(ty) == voidtype) 
error("illegal type ‘array of %t'\n", ty); 
else if (Aflag >= 2) 
warning("declaring type ‘array of %t' is _ 
undefined\n", ty); 
} else if (n > INT_MAX/ty->size) { 
error("size of ‘array of %t' exceeds %d bytes\n", 
ty, INT_MAX); 
n= 1; 
} 
return type(ARRAY, ty, n*ty->size, 
a? a: ty->align, NULL); 
} 


C 语 言 中 ， 不 允许 出 现 函 数 数组 、void 类 型 的 数组 以 及 除 GLOBAL 外 其 他 任意 作用 域 层次 
的 不 完全 数组 (长 度 为 0 的 数组 )。array 不 能 表示 超过 INT_MAX 字 节 的 数组 的 大 小 ， 因 此 array 
也 禁止 大 小 超过 INT_MAX 字 节 的 数组 。 如 果 Ico 编译 选项 -A 出 现 了 两 次 ， 则 将 Aflag EX 2, 
表示 loc 要 对 非 ANSI 用 法 报警 。 因 此 ， 当 Aflag 等 于 2 时 ， 如 果 声 明 的 不 完全 数组 的 类 型 是 不 完 
全 类 型 ，array 应 输出 警告 信息 。 格 式 代码 %t 打印 相应 类 型 参数 的 英文 描述 ， 人 参见 练习 4.4。 

在 许多 情况 下 ， 数 组 类 型 “退化 ”( decay) 为 指向 数组 元 素 类 型 的 指针 ， 例 如 当 数 组 作为 形 
参 的 类 型 时 。atop 函数 实现 这 种 “退化 ”: 


(types.c functions) += 分 4] 
Type atop(ty) Type ty; { 
if Cisarray(ty)) 
return ptr(ty->type) ; 
error("type error: %s\n", “array expected"); 
return ptr(ty); 
} 


qual 和 unqual 分 别 构造 和 析 构 (deconstruct) 限定 类 型 。 给 定 类 型 ty, qual 检查 非法 的 操作 
数 ， 创 建 (CONST ty), (VOLATILE ty) 或 (CONST+VOLATILE ty). ~ 


(types.c functions) += 分 48 
Type qual(op, ty) int op; Type ty; { 
if Cisarray(ty)) 
ty = type(ARRAY, qual(op, ty->type), ty->size, 
ty->align, NULL); 
else if (isfunc(ty)) 
warning("qualified function type ignored\n"); 
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warning("qualtified function type ignored\n"); 
else if Cisconst(ty) && op == CONST 
l] isvolatile(ty) & op == VOLATILE) 
error("illegal type '%k %t'\n", op, ty); 
else { 
if Cisqual(ty)) { 
op += ty->op; 
ty = ty->type; 
} 
ty = type(op, ty, ty->size, ty->align, NULL); 


return ty; 


} 

WMR ty EA (ARRAY ety)， 而 限定 是 作用 于 数组 元 素 类 型 的 ， 那 么 qual(op ty) 就 会 创 
建 (ARRAY(op，ety))。 如 果 ft 已 经 是 限定 的 ， 即 是 (CONST ty->type) 或 (VOLATILE ty-> 
type)， 并 且 op 是 另 一 个 限定 符 ， 那 么 qual 创建 (CONST+VOLATILE ty->type)。 这 一 约定 使 
qual 的 代码 变 得 复杂 ， 但 是 我 们 只 使 用 一 个 类 型 节点 而 不 是 一 或 两 个 类 型 节点 来 描述 限定 类 型 ， 
简化 了 isqual 函数 。 


4.5 函数 类 型 
函数 类 型 的 type 域 给 出 了 函数 返回 值 的 类 型 ， 联 合 u 保 存 了 描述 各 参数 类 型 的 结构 : 
(function types 48)= 4] 
struct { 


unsigned oldstyle:1; 
Type *proto; 
+f} 
foldstyle 标记 区 分 两 种 函数 类 型 : 1 表示 旧 风 格 (old-style) 类 型 ， 即 省 略 参数 的 类 型 ; 0 表示 新 
风格 (new-style) 类 型 ， 即 总 是 包含 参数 的 类 型 。fproto 指向 以 空 指针 (null) 结尾 的 Type 数组 ， 
f.proto[i] 是 第 it1 个 参数 的 类 型 。 因 为 旧 风 格 的 函数 类 型 可 能 带 有 原型 ， 需 要 foldstyle 标记 。 但 
是 ， 正 如 ANSI 标准 指出 的 一 样 ， 这 些 原 型 不 用 于 检查 函数 调用 时 的 实 参 类 型 。 旧 风格 的 函数 定 
义 之 后 ， 再 使 用 新 风格 声明 函数 是 很 少见 的 。 例 如 : 
int f(x,y) int x; double y; { ... } 
extern int fCint, double); 
第 一 条 语句 定义 f 为 旧 风格 函数 ， 随 后 的 语句 声明 f 的 原型 。 原 型 必须 与 定义 保持 一 致 ， 但 
不 用 于 调用 f 时 的 检查 实 参 类 型 。 
func 函数 创建 类 型 (FUNCTION ty {proto}), ty 是 返回 值 类 型 ， 花 括号 括 住 的 是 原型 。func 
初始 化 原型 和 old-style 标记 : 
(types.c functions) += a7 49 
Type func(ty, proto, style) Type ty, *proto; int style; { 
if (ty && Cisarray(ty) || isfunc(ty))) 
error("illegal return type ‘%t'\n", ty); 
ty = type(FUNCTION, ty, 0, 0, NULL); f 
ty->u.f.proto = proto; 


ty->u.f.oldstyle = style; 
return ty; 
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freturn 对 于 函数 类 型 的 作用 与 deref 对 指针 类 型 的 作用 一 样 。 它 以 类 型 (FUNCTION ty) 作 
为 输入 ， 间 接 访问 (FUNCTION ty)， 生 成 函数 返回 值 类 型 fy。 


(types.c functions) += 48 49 
Type freturn(ty) Type ty; { 
if Cisfunc(ty)) 
return ty->type; 
error("type error: %s\n", "function expected"); 
return inttype; 


ANSI C 支持 不 带 参 数 的 函数 ， 这 种 函数 在 声明 时 用 void 作为 参数 列表 。 例 如 : 
void f(void); 
f 声 明 为 不 带 参 数 的 函数 ， 并 且 没 有 返回 值 。 从 内 部 表示 上 看 ， 不 带 参 数 的 函数 的 原型 是 空 的 ， 
仅 由 表示 结束 的 空 指针 组 成 。f 的 类 型 可 以 描述 为 : 
(FUNCTION (VOID) {(VOID)}) 
ANSI C 支持 参数 数目 可 变 的 函数 ， 例 如 sprintf， 它 的 声明 为 : 
int sprintf(char *, char *, ...); 
省 略 号 表示 参数 列表 的 可 变 部 分 。 可 变 参 数 的 原型 包括 已 声明 的 参数 的 类 型 、void 类 型 和 表示 结 
束 的 空 指 针 。sprintf 的 类 型 是 ， 
(FUNCTION CINT) 
{(POINTER (CHAR)) 
(POINTER (CHAR)) 
(VOID) }) 


variadic Wi Ww Art ph BUY AR RE AY void 类 型 来 测试 函数 类 型 是 否 带 有 长 度 可 变 的 
参数 列表 : 
(types.c functions) += 49 50 
int variadic(ty) Type ty; { 
if Cisfunc(ty) && ty->u.f.proto) { 
int i; 
for Gi = 0; ty->u.f.proto[i]; i++) 


return i > 1 && ty->u.f.proto[i-1] == voidtype; 


return 0; 


} à 

参数 数目 可 变 的 函数 要 求 至 少 声明 了 一 个 参数 ， 然 后 才 是 零 个 或 多 个 可 选 参数 。 因 此 ， 判 断 
时 不 会 将 在 原型 结尾 处 的 void 与 不 带 参数 的 函数 混淆 ， 后 者 的 原型 只 有 一 个 元 素 ， 即 〖VOID)}。 
4.6 ”结构 和 枚 举 类 型 


结构 和 联合 类 型 是 通过 标记 识别 的 ， 这 些 类 型 的 usym 域 指向 这 些 标记 的 符号 表 人 和 人口。 这 些 
域 存放 在 符号 表 和 口中， 而 不 是 在 类 型 本 身 中 。symbol 结构 的 相关 域 是 u.s: 
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(struct types 50)= 28 
struct { 
unsigned cfields:1; 
unsigned vfields:1; 
Field flist; 
} s; 


如 果 结 构 或 联合 类 型 的 任意 域 带 有 常量 (const) 限定 符 或 可 变 ( volatile) 限定 符 ， 那么 cfields 和 
vfields 都 为 1。flist 域 指向 用 link 域 连接 起 来 的 field 结构 : 


(types.c typedefs)+= 40 
typedef struct field *Field; 


(types.c exported types)+= 40 
struct field { 
char *name; 
Type type; 
int offset; 
short bitsize; 
short lsb; 
Field link; 
$; 
name 保存 域 的 名 字 ，type 是 域 的 类 型 offset 是 该 域 在 结构 的 实例 中 以 字 节 为 单位 的 偏 移 量 。 
当 field 描述 一 个 位 域 时 ，type 等 于 inttype 或 unsignedtype， 只 有 这 两 种 类 型 才 人 允许 位 域 。1sb 
域 非 零 ， 用 于 下 面 的 宏 定义 中 。l1sb 等 于 位 域 中 最 低 有 效 位 的 位 号 加 1， 最 低 有 效 位 的 位 号 从 零 
开始 。 
(types.c exported macros) += Bs 
#define fieldsize(p) (p)->bitsize nt 
#define fieldright(p) ((p)->1sb - 1) 
#define fieldleft(p) (8*(p)->type->size - \ 
fieldsize(p) - fieldright(p)) 
#define fieldmask(p) (~(~(Cunsigned)0<<fieldsize(p))) 
宏 fieldsize 返回 bitsize 域 ，bitsize 存放 位 域 的 以 位 为 单位 的 长 度 。fieldright 返回 位 域 最 右边 位 的 
位 号 ， 可 用 于 对 位 域 进行 移 位 ， 使 位 域 从 符号 或 无 符号 整数 的 最 低 有 效 位 开始 。 类 似 地 ，fieldleft 
返回 域 最 左边 位 的 位 号 ， 用 于 符号 位 域 的 符号 扩展 操作 。fieldmask 是 一 个 掩 码 ， 由 bitsize 个 1 
组 成 ， 用 于 抽取 位 域 时 清除 无 用 的 位 。 值 得 注意 的 是 ， 位 域 的 表示 不 依赖 于 目标 机 器 的 字 节 顺序 
(endianness)， 不 管 是 高 位 优先 (big endian)， 还 是 低位 优先 (little endian)， 位 域 的 表示 都 相同 。 
newstruct 创建 新 的 类 型 ( STRUCT["tag"]) 或 (UNION["tag"])，tag 是 标记 。 声 明 或 定义 一 
个 新 的 结构 或 联合 时 ， 无 论 有 没有 域 列 表 ，structdcl 函数 都 调用 newstruct。 创 建新 的 结构 或 联 
合 类 型 时 ， 类 型 的 标记 装 人 types 表 。 对 匿名 的 结构 和 联合 ， 也 就 是 没有 标记 的 结构 和 联合 ， 
newstruct 为 它们 生成 标记 : 


(types.c functions) += 49 51 
Type newstruct(op, tag) int op; char *tag; { i 
Symbol p; ; 


if (*tag == 0) 
tag = stringd(genlabel(1)); 
else 


(check for redefinition of tag 51) 
p = install(tag, &types, level, PERM); 
p->type = type(op, NULL, 0, 0, p); 
if (p->scope > maxlevel) 
maxlevel = p->scope; 
p->src = src; 
return p->type; 
} 


将 新 的 标记 加 入 types 表 时 ， 可 能 会 创建 作用 域 层 数 大 于 maxlevel 的 人口， 因此 ， 如 果 需 
要 ， 应 调整 maxlevel。 结 构 类 型 指向 它们 的 符号 表 和 人 口 ， 反 过 来 符号 表 人 口 也 指向 结构 类 型 ， 这 
样 ， 标 记 可 以 映射 到 类 型 ， 类 型 也 可 以 映射 到 标记 。 例 如 ， 当 标记 用 在 声明 符 中 时 ， 标 记 映 射 成 
类 型 ， 参 见 structdcl。 当 rmtypes 将 类 型 从 typetable 中 删除 时 ， 需 要 将 类 型 映射 成 标记 。 

在 同一 作用 域 中 多 次 定义 相同 的 标记 是 非法 的 ， 但 多 次 声明 同一 标记 是 合法 的 。 如 果 给 出 了 
包含 域 的 结构 声明 ， 那 么 就 声明 并 定义 了 结构 标记 ; 如 果 使 用 不 包含 域 的 结构 标记 ， 那 么 只 是 声 
明 标 记 而 已 。 例 如 : 

struct employee { 

char *name; 


Struct date *hired; 
char ssn[9]; 


声明 并 定义 了 employee， 但 只 是 声明 了 date。 定 义 一 个 标记 时 ， 其 defined 标记 被 设置 ， 通 过 检 
查 defined 标记 可 以 判断 标记 是 否 重复 定义 : 


(check for redefinition of tag 51)= 51 
if ((p = lookup(tag, types)) != NULL && (p->scope == level 
|| p->scope == PARAM && level == PARAM+1)) { 

if (p->type->op == op && !p->defined) 
return p->type; 
error("redefinition of '%s' previously defined at %w\n", 
p->name, &p->src); 
} 


参数 和 参数 类 型 的 作用 域 为 PARAM， 局 部 变量 的 作用 域 从 PARAM+1 开始 。ANSI C 规定 
了 参数 与 顶层 局 部 变量 的 作用 域 相 同 ， 因 此 必须 测试 该 作用 域 下 局 部 变量 是 否 重 定义 了 参数 中 定 
义 的 标记 。 这 种 作用 域 的 划分 并 不 是 ANSI C 标准 的 要 求 , lcc 内 部 使 用 它 来 区 分 参数 和 局 部 变量 ， 
foreach 函数 能 够 分 别 访问 它们 。 

newfield 函数 分 配 一 个 field 结构 ， 将 该 结构 附加 到 结构 类 型 ty 的 符号 表 入 口 的 域 列表 中 ， 
从 而 在 ty 中 加 入 一 个 类 型 为 fty 的 域 : 

(types.c functions) += ~~ % 52 


Field newfield(name, ty, fty) char *name; Type ty, fty; { mi 
Field p, *q = &ty->u.sym->u.s.flist; 


if (mame == NULL) 
name = stringd(genlabel (1)); 
for (p = *q; p; q = &p->link, p = *q) 
if (p->name == name) 
error("duplicate field name '%s' in '%t'\n", 
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name, ty); 
NEWO(p, PERM); 
*q = p; 
p->name = name; 
p->type = fty; 
return p; 
} 


如 果 name 25, newfield 生成 一 个 名 字 ，field 函数 使 用 这 个 功能 处 理 无 名 位 域 。fieldref K 
数 搜索 域 列表 ， 参 见 练习 4.6。 

枚 举 类 型 和 结构 、 联 合 类 型 相似 ， 只 是 它们 没有 域 ， 并且 它们 的 type 域 给 出 了 相关 联 的 整 
数 类 型 ，lcc 总 是 使 用 inttype。ANSI C 标准 允许 编译 器 使 用 任何 能 存放 枚 举 值 的 整数 类 型 ， 但 
许多 编译 器 都 使 用 int。lcc 也 这 样 处 理 ， 以 保持 兼容 性 。 枚 举 类 型 具有 type 域 , 使 1cc 能 够 为 
不 同 的 枚 举 使 用 不 同 的 整数 类 型 。 以 操作 符 ENUM 为 参数 调用 newstruct 可 以 创建 枚 举 类 型 ， 
newstruct 返回 类 型 (ENUM["tag"])。 

与 结构 或 联合 类 型 一 样 ， 枚 举 类 型 的 usym 域 指向 其 标记 的 符号 表 和 人 口 ， 但 是 它 使 用 symbol 
结构 中 的 不 同 部 分 : 

(enum types 52)= 28 

Symbol *idlist; 

对 于 枚 举 类 型 包含 的 枚 举 常 量 ，idlist 指向 以 空 结尾 的 Symbol 数组 。 这 些 符号 加 载 到 identifiers 
表 ， 每 一 个 人 口 包含 该 枚 举 常 量 的 值 : 


(enum constants 52 ) 三 
int value; 


枚 举 常 量 不 是 枚 举 类 型 的 一 部 分 。 分 析 枚 举 常量 时 ， 将 创建 、 初 始 化 枚 举 常量 ， 并 将 枚 举 常 
量 打包 在 一 个 数组 中 。 参 见 练习 11.9。 


47 类 型 检查 函数 


判断 两 个 类 型 是 否 兼容 是 类 型 检查 的 关键 。 本 节 描 述 的 函数 有 助 于 实现 ANSI C 类 型 检查 
规则 。 
如 果 两 个 类 型 兼容 ，eqtype 函数 返回 1， 否 则 返回 0。 


(types.c functions) += 
int eqtype(ty1, ty2, ret) Type tyl, ty2; int ret; { 
if (tyl == ty2) 
return 1; 
if (tyl->op != ty2->op) 
return 0; 
switch (tyl->op) { 
case CHAR: case SHORT: case UNSIGNED: case INT: 
case ENUM: case UNION: case STRUCT: case DOUBLE: 
return 0; 
case POINTER: (check for compatible pointer types 53) 
case VOLATILE: case CONST+VOLATILE: 
case CONST: (check for compatible qualified types 53) 
case ARRAY: (check for compatible array types 53) 
case FUNCTION: (check for compatible function types 53) 
} 
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如 果 tyl 或 ty2 是 不 完全 类 型 ， 则 eqtype 返回 第 三 个 参数 ret 的 值 。 
每 个 类 型 总 是 与 自身 兼容 。type 函数 保证 大 多 数 类 型 只 有 一 个 实例 ， 这 样 许多 兼容 类 型 都 可 
以 通过 eqtype 的 第 一 步 测试 。 同 样 ， 许 多 类 型 不 兼容 都 是 因为 测试 类 型 具有 不 同 的 操作 符 ， 绝 对 
是 不 兼容 的 ， 导 致 eqtype 返回 0。 
如 果 两 个 不 同 的 类 型 具有 相同 的 操作 符 CHAR. SHORT, UNSIGNED 或 INT， 但 表示 不 同 
的 类 型 ， 如 unsigned short 和 signed short， 这 两 个 类 型 也 不 兼容 。 同 样 ， 两 个 枚 举 类 型 、 结 构 或 
联合 类 型 ， 只 有 当 它 们 是 相同 的 类 型 时 才 是 兼容 的 。 
剩 下 的 case 语句 遍历 类 型 结构 ， 判 断 兼 容 性 。 例 如 ， 如 果 两 个 指针 类 型 引用 的 类 型 兼容 ， 
则 指针 类 型 兼容 : 
(check for compatible pointer types 53)= 52 
return eqtype(tyl->type, ty2->type, 1); 
如 果 两 个 相似 的 限定 类 型 的 非 限 定 类 型 兼容 ， 则 它们 也 兼容 : 
(check for compatible qualified types 53)= 52 
return eqtype(tyl->type, ty2->type, 1); 
不 完全 类 型 不 包括 它 所 描述 的 对 象 的 大 小 。 例 如 : 
int a[]; 


声明 了 一 个 大 小 未 知 的 数组 。 类 型 由 (ARRAY 0(INT)) 给 出 ， 大 小 为 0 表示 一 个 不 完全 类 型 。 
如 果 两 个 数组 的 元 素 类 型 兼容 ， 并 且 大 小 也 相等 (如果 给 定 了 大 小 )， 则 这 两 个 数组 类 型 是 兼 
容 的 : 
(check for compatible array types 53)= 52 
if (eqtype(tyl->type, ty2->type, 1) { 
if (tyl->size == ty2->size) 
return 1; 
if (tyl->size == 0 || ty2->size == 0) 
return ret; 
} 


return 0; 


如 果 其 中 一 个 数组 为 不 完全 类 型 ，eqtype 返回 ret， 和 否则 它们 的 类 型 仍 兼 容 。 当 eqtype 递归 调用 
本 身 时 ，ret 总 为 1， 在 别处 调用 时 ret 通常 也 为 1。 一些 操作 符 ， 如 指针 比较 ， 要 求 操作 数 要 么 
都 是 不 完全 类 型 ， 要 么 都 是 完全 类 型 ， 这 时 eqtype 的 调用 参数 ret 等 于 0。 上 面 代码 中 的 第 一 个 
测试 是 处 理 两 个 数组 的 大 小 都 未 知 的 情况 。 

如 果 两 个 函数 类 型 的 返回 类 型 和 原型 都 兼容 ， 那 么 这 两 个 函数 类 型 兼容 : 


(check for compatible function types 53)= 52 
if (eqtype(tyl->type, ty2->type, 1)) { 
Type *pl = tyl->u.f.proto, *p2 = ty2->u.f.proto; 
if (pl == p2) 
return 1; 
if (pl & p2) { 
(check for compatible prototypes 54) 
} else { 
(check if prototype is upward compatible 54) 
} 
} 


return 0; 
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当 两 个 函数 都 有 原型 时 ， 情 况 相 对 简单 一 些 。 原 型 必须 具有 相同 数目 的 参数 类 型 ， 每 个 原型 
中 的 类 型 的 非 限定 形式 必须 兼容 。 


(check for compatible prototypes 54)= 53 
for ( ; *pl && *p2; pl++, p2++) 
if Ceqtype(unqual(*pi), unqual(*p2), 1) == 0) 
return 0; 
if (*pl == NULL && *p2 == NULL) 
return 1; 


其 他 情况 更 复杂 一 些 。 如 果 其 中 一 个 函数 类 型 有 原型 ， 则 该 函数 类 型 的 每 个 参数 的 类 型 必须 
与 应 用 了 默认 参数 提升 (default argument promotion) 得 到 的 类 型 本 身 的 非 限定 形式 兼容 。 同 时 ， 
如 果 具 有 原型 的 函数 类 型 的 参数 个 数 可 变 ， 则 两 个 函数 类 型 不 兼容 。 


(check if prototype is upward compatible 54) = 53 
if (variadic(pl ? tyl : ty2)) 
return 0; 
if (pl == NULL) 
pl = p2; 


for ( ; *pl; pl++) { 
Type ty = unqual(*p1); 
if (promote(ty) != ty || ty == floattype) 
return 0; 
} 


return 1; 


默认 参数 提升 规定 浮 点 提升 为 双 精 度 ， 小 整数 和 枚 举 提 升 为 整数 或 无 符号 数 。 上 面 的 代码 对 
浮 点 类 型 显 式 提升 ， 为 其 他 的 调用 promote RX promote 实现 整 型 提升 : 


(types.c functions) += 52 54 
Type promote(ty) Type ty; { + 
ty = unqual (ty); 
if Cisunsigned(ty) || ty == longtype) 
return ty; 
else if (isint(ty) || isenum(ty)) 
return inttype; 
return ty; 


两 个 兼容 类 型 可 以 结合 (combine) 形成 新 的 复合 类 型 。 例 如 = C 程序 : 

int xÍ]; 

int x[10]; 
第 一 条 声明 语句 声明 x 具有 类 型 ( ARRAY 0(INT)), 第 二 条 形成 新 类 型 ( ARRAY 10(INT))。 这 两 
种 类 型 结合 形成 的 类 型 ( ARRAY 10(INT)) 变 为 x 的 类 型 。 在 类 型 结合 时 ， 复 合 类 型 的 大 小 等 于 
第 二 种 类 型 的 大 小 。 男 一 个 例子 是 结合 具有 原型 的 函数 类 型 与 不 带 原型 的 函数 类 型 。 

compose 以 两 个 兼容 类 型 为 参数 ， 返 回复 合 (composite) 类 型 。 在 结构 上 compose 与 eqtype 
相似 ， 且 在 处 理 简单 情况 时 也 相似 。 


(types.c functions) += 4 56 
Type compose(tyl, ty2) Type tyl, ty2; { 
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if (tyl == ty2) 

return tyl; 
switch (tyl->op) { 
case POINTER: 

return ptr(compose(tyl->type, ty2->type)); 
case CONST+VOLATILE: 

return qual(CONST, qual(VOLATILE, 

compose(tyl->type, ty2->type))); 

case CONST: case VOLATILE: 

return qual(tyl->op, compose(tyl->type, ty2->type)); 
case ARRAY: { (compose two array types 55) } 
case FUNCTION: { (compose two function types 55) } 
} 

} 


如 果 两 个 兼容 的 数组 类 型 中 有 一 个 完全 类 型 ， 则 形成 的 新 数组 类 型 的 大 小 等 于 完全 类 型 的 
大 小 。 


(compose two array types 55)= 55 
Type ty = compose(tyl->type, ty2->type); 
if (tyl->size && tyl->type->size && ty2->size == 0) 
return array(ty, tyl->size/tyl->type->size, tyl->align) ; 
if (ty2->size && ty2->type->size && tyl->size == 0) 
return array(ty, ty2->size/ty2->type->size, ty2->align); 
return array(ty, 0, 0); 


两 个 兼容 的 函数 类 型 所 形成 的 复合 类 型 的 返回 类 型 是 这 两 个 函数 类 型 的 返回 类 型 的 复合 ， 参 
数 类 型 是 相应 的 参数 类 型 的 复合 。 如 果 其 中 一 个 函数 类 型 没有 原型 ， 则 复合 类 型 的 原型 来 自 于 另 
一 个 函数 类 型 。 


(compose two function types 55)= 55 
Type *pl = tyl->u.f.proto, *p2 = ty2->u.f.proto; 
Type ty = compose(tyl->type, ty2->type); 


List tlist = NULL; 
if (pl == NULL && p2 == NULL) 
return func(ty, NULL, 1); 
if (pl && p2 == NULL) 
return func(ty, pl, tyl->u.f.oldstyle); 
if (p2 && pl == NULL) 
return func(ty, p2, ty2->u.f.oldstyle); 
for ( ; *pl && *p2; pl++, p2++) { 
Type ty = compose(unqual(*pl), unqual(*p2)); 
if Cisconst(*p1) || isconst(*p2)) 
ty = qual(CONST, ty); 
if Cisvolatile(*pl) || isvolatile(*p2)) 
ty = qual(VOLATILE, ty); 
tlist = append(ty, tlist); 
} 
return func(ty, ltov(&tlist, PERM), 0); 


上 述 代码 中 ， 数 据 结构 List 是 指针 列表 ， 通 过 列表 函数 append 和 ltov 对 List 进行 操作 。 
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本 章 描述 的 类 型 表示 和 类 型 函数 主要 用 于 前 端 ， 后 端 可 能 检查 类 型 的 size 和 align 域 ， 但 不 
能 依赖 于 其 他 域 。 


然而 ， 后 端 必须 能 够 将 Type 映射 为 类 型 后 级， 用 来 形成 第 5 章 中 描述 的 类 型 相关 的 操作 符 。 
类 型 后 缀 是 类 型 操作 符 的 子 集 。ttob 函数 将 类 型 映射 为 相应 的 类 型 后 绥 : 


(types.c functions) += 54 s$ 
int ttob(ty) Type ty; í 


} 


switch (ty->op) { 

case CONST: case VOLATILE: case CONST+VOLATILE: 
return ttob(ty->type) ; 

case CHAR: case INT: case SHORT: case UNSIGNED: 

case VOID: case FLOAT: case DOUBLE: return ty->op; 


case POINTER: case FUNCTION: return POINTER; 
case ARRAY: case STRUCT: case UNION: return STRUCT; 
case ENUM: return INT; 

} 


widen 的 作用 与 ttob 相似 ， 只 是 将 所 有 整数 类 型 扩展 为 int: 


(types.c exported macros) += 
#define widen(t) Cisint(t) || isenum(t) ? INT : ttob(t)) 


btot 的 功能 和 ttob 相反 ， 将 类 型 操作 符 或 类 型 后 级 op 转换 为 满足 optype(op )==ttob(btot(op ) ) 


的 类 型 : 


(types.c functions) += 56 


Type btot(op) int op; { 


} 


switch (optype(op)) { 

case F: return floattype; 
case D: return doubletype; 
case C: return chartype; 
case S: return shorttype; 
case I: return inttype; 

case U: return unsignedtype; 
case P: return voidptype; 


} 


5.5 节 定 义 的 枚 举 标 识 符 F、D、C… 是 相应 的 类 型 操作 符 的 缩写 。 


深入 阅读 

lec 的 类 型 表示 主要 针对 类 型 可 由 文法 规定 的 语言 ， 此 类 语言 的 类 型 可 以 通过 链接 结构 表 
示 ， 链 接 结构 实际 上 是 类 型 文法 导出 的 表达 式 的 抽象 语法 树 。Aho，Sethi and Ullman ( 1986 ) 
详细 描述 了 这 种 类 型 表示 方法 并 且 阅 明 如 何 进行 类 型 检查 。 这 种 类 型 表示 和 检查 不 仅 适 用 于 
C， 也 适用 于 其 他 函数 语言 ， 如 ML (Ullman，1994 )。Aho，Sethi and Ullman (1986) 中 的 6.3 
节 ， 特 别 是 练习 6.13, 介绍 了 可 移植 的 C 编译 器 PCC (Johnson, 1978) 是 如 何 使 用 位 串 表示 类 


型 的 。 
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练习 
4.1 给 出 下 列 声明 中 类 型 的 带 括号 的 前 级 形式 : 


long double d; 

char ***p; 

const int *const volatile *q; 

int (*r) [10] [4]; 

struct tree *(*s[])(int, struct tree *, struct tree *); 


42 给 出 一 个 C 的 结构 定义 的 例子 ， 使 其 引发 4.6 节 所 描述 的 标记 重 定义 诊断 错误 。 
43 实现 断言 ; 


(types.c exported functions)= y 
extern int hasproto ARGS((Type)); 


如 果 ty 不 包含 函数 类 型 或 者 包含 的 所 有 函数 类 型 都 有 原型 ，hasproto 返回 1， 否 则 返回 0。hasproto 用 
于 警告 遗漏 的 原型 说 明 。 由 于 分 析 结 构 时 将 域 的 类 型 作为 参数 显 式 调用 hasproto， 因 此 如 果 结 构 的 某 
个 域 是 函数 指针 ， 且 函数 没有 原型 ，hasproto 就 不 能 发 出 警告 信息 。 

4.4 在 调试 诊断 中 ,lcc 显示 类 型 的 英文 解释 。 例 如 ，4.5 节 所 示 的 sprintf 的 类 型 (int sprintf ( char* ， 
char*, ，… ) ) 和 类 型 char * (*strings) [10] 分 别 显示 为 : 


int function(char *, char *, ...) 
pointer to array 10 of pointer to char 


printf 风格 的 格式 代码 %t 表示 打印 下 一 个 Type 参数， 输出 函数 调用 outtype 函数 完成 对 %t 的 处 理 : 


(types.c exported functions) += s 5 
extern void outtype ARGS((Type)); 


实现 outtype 函数 。 
4.5 types.c 也 输出 3 个 函数 格式 化 和 打印 类 型 。 
(types.c exported functions) += s J 
extern void printdec1 ARGS((Symbol p, Type ty)); 


extern void printproto ARGSC(Symbol p, Symbol args[])); 
extern char *typestring ARGS((Type ty, char *id)); 


typestring 返回 C 的 声明 ， 该 声明 指定 ty 是 标识 符 id 的 类 型 。 例 如 ， 如 果 tfy 是 
(POINTER (ARRAY 10 (POINTER (CHAR)))) 
Hid fÆ “strings”, typestring i [=] “char * (*strings) [10]” > lee AY -P 选项 通过 在 标准 错误 输出 上 打印 
函数 的 新 风格 原型 和 全 局 变量 ， 帮 助 将 ANSI 之 前 的 代码 转换 为 ANSI C 代码 。printdecl 假设 函数 p 具 
有 类 型 ty (通常 ty 等 于 p->type)， 打 印 p 的 声明 ; printproto 打印 函数 p 的 说 明 ，p 的 参数 由 args 给 出 。 
printproto 使 用 args 创建 参数 类 型 ， 调 用 printdecl，printdecl 再 调用 typestring。 实 现 这 些 函 数 。 

4.6 PRR: 


(types.c exported functions) += 5 
extern Field fieldref ARGS((char *name, Type ty)); 
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搜索 ty 的 域 列 表 ， 查 找 name 指定 的 域 ， 返 回 指 向 field 结构 的 指针 。 如 果 没 有 名 为 name 的 域 ， 返 回 
NULL。 实 现 fieldref。 
4.7 解释 为 什么 lcc 诊断 出 下 列 C 程序 的 赋值 操作 数 含 有 非法 类 型 。 
struct { int x, y; } *p; 
struct { int x, y: F'O; 
main) { p= q; } i 
4.8 解释 为 什么 lcc 认为 下 列 C 程序 中 f 的 参数 类 型 非法 。 


void f(struct point { int x, y; } *p) {} 
struct { int x, y; } *origin; 
main() { f(origin); } 

4.9 解释 为 什么 lee 认为 下 列 C 程序 中 isdigit 的 定义 与 isdigit 的 外 部 声明 冲突 。 
extern int isdigit(char c); 
int isdigit(c) char c; { return c >= '0' && c <= '9'; } 

4.10 测试 表明 types.c 中 <search for an existing type> 的 让 语句 是 lce 的 执行 热点 之 一 。 改 写 代 码 ， 判 断 最 
佳 执行 时 间 条 件 下 的 测试 顺序 。 如 果 你 发 现 了 最 佳 顺序 ， 用 lcc 编译 自身 以 测试 使 用 该 顺序 在 时 间 上 
的 改进 。 这 种 改进 值得 吗 ? 

4.11 结构 类 型 指向 存放 它们 的 域 列表 的 符号 ， 这 些 符 号 反 过 来 也 指向 类 型 。 重 新 设计 这 个 显然 比较 笨拙 的 
数据 结构 ， 使 得 类 型 完全 与 符号 表 无 关 。 例 如 ， 结 构 类 型 可 以 在 它 的 u 的 某 个 域 中 携带 域 列表 ， 带 
标记 的 类 型 可 以 使 用 其 他 域 来 存储 类 型 定义 点 的 作用 域 级 别 。 你 需要 修改 诸如 newstruct 之 类 的 函数 ， 
初始 化 这 些 域 ; 提供 函数 将 标记 映射 为 类 型 ， 反 之 亦 然 。 基 本 类 型 需要 那些 存放 在 符号 表 入 口 的 数据 ， 
如 addressed 标记 。 比 较 修改 后 的 设计 ， 它 是 否 明显 比 原 有 的 先进 ? 你 的 实现 是 否 重复 了 其 他 地 方 提 
供 的 功能 ， 如 符号 表 模块 中 的 功能 ? 
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代码 生成 接口 





本 章 定义 了 与 目标 机 器 无 关 的 前 端 和 与 目标 机 器 相关 的 后 端 之 间 的 接口 。 设 计 一 个 好 的 代 
码 生成 接口 是 很 困难 的 。 一 个 不 恰当 的 接口 可 能 迫使 每 个 后 端 重复 做 一 些 前 端 能 够 一 次 完成 的 工 
作 。 如 果 接 口 太 小 ,在 开发 全 新 的 目标 机 器 后 端 时 可 用 的 信息 就 会 太 少 ; 如 果 接 口 太 庞大 ,后 端 
会 被 不 必要 地 复杂 化 。 这 些 矛 盾 的 需求 要 求 仔细 规划 代码 生成 接口 ， 尤 其 在 设计 开发 新 的 目标 机 
带 时 ,会 暴露 新 的 缺陷 ， 可 能 需要 重新 规划 接口 。 

lee 的 接口 包括 一 些 共 享 数据 结构 、18 个 函数 (其 中 大 部 分 比较 简单 ) 和 包括 36 个 操作 符 的 

在 言 ， 该 语言 用 于 将 可 执行 代码 从 源 程序 形式 编码 成 dag (无 环 有 向 图 ) 形式 。 共 享 数据 结构 的 

某 些 大 可 以 供 前 端 和 后 端 共享 而 男 一 些 域 则 归 前 端 或 后 端 私有 。 

我 们 在 前 面 的 第 3 章 和 第 4 章 描述 了 两 种 共享 数据 结构 : symbol 和 type。 尽 管 编译 器 后 端 
可 以 检查 这 些 数据 结构 中 的 任何 域 ， 但 loo 约定 后 端 只 访问 部 分 域 。 本 章 列 举 了 后 端 可 能 检查 的 
域 ， 集 中 描述 了 完整 的 接口 ， 回 顾 了 各 个 域 表 示 的 意义 ， 其 中 省 略 了 逮 辑 上 对 前 端 或 后 端 可 私有 
的 域 。 


5.1 类 型 度量 
类 型 度量 (type metric) 指定 基本 类 型 的 大 小 和 对 齐 字 节 数 : 


(interface 59)= 60 a 
typedef struct metrics { 
unsigned char size, align, outofline; 
} Metrics; 


outofline 标记 控制 相关 类 型 的 常量 的 放置 。 如 果 outofline 为 1， 则 该 类 型 的 常量 不 能 出 现在 dag 
中 ， 而 是 存放 在 一 个 匿名 的 静态 变量 中 。 对 常量 值 的 访问 可 通过 对 静态 变量 的 存 取 获得 。 每 个 基 
本 类 型 都 有 类 型 度量 : 


(metrics 59)= 60 
Metrics charmetric; 
Metrics shortmetric; 
Metrics intmetric; 
Metrics floatmetric; 
Metrics doublemetric; 
Metrics ptrmetric; 
Metrics structmetric; 
ptrmetric 描述 所 有 类 型 的 指针 。structmetric.align 指定 结构 的 最 小 对 齐 字 节 数 ， 结 构 的 最 大 对 
齐 字 节 数 就 是 它 的 各 个 域 的 对 齐 字 节 数 和 structmetric.align 中 的 最 大 值 。structmetric 的 size 域 未 
使 用 。 只 有 某 种 类 型 的 常量 的 值 可 以 作为 立即 操作 数 出 现在 指令 中 时 ， 编 译 器 后 端 才 将 其 类 型 度 
量 的 outofline 标记 置 为 0。 
字符 的 大 小 和 对 齐 字 节 数 都 必须 为 1。 前 端 可 以 正确 地 将 符号 整数 、 无 符号 整数 和 长 整数 作 
为 不 同类 型 处 理 ， 但 是 它们 都 共享 intmetric。 同 样 ，double 和 long double 类 型 共享 doublemetric。 
每 个 指针 必须 能 够 存放 在 一 个 无 符号 整数 中 。 
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5.2 接口 记录 


交叉 编译 器 是 指 在 某 个 计算 机 平台 上 和 运行 并 为 另 一 个 平台 产生 代码 的 编译 器 。lcc 可 以 和 
多 个 不 同 目标 机 器 的 代码 生成 器 链接 ， 可 以 用 作 本 地 或 交叉 编译 器 。lce 的 接口 记录 存放 了 前 
端 需要 了 人 解 的 目标 机 器 信息 ， 包 括 指 向 接口 例 程 的 指针 、 类 型 度量 和 接口 标志 。 接 口 记录 的 定 
SOK: -~ 


(interface 59) += $% 72 11 
typedef struct interface { E 
(metrics 59) 
(interface flags 65) 
(interface functions 60) 
Xinterface x; 
} Interface; 


loc 为 每 种 目标 机 器 都 形成 一 个 独 有 的 接口 实例 。x 域 是 对 interface 的 扩展 ， 后 端 使 用 它 存 放 与 目 
标 机 器 相关 的 接口 数据 和 函数 ， 对 后 端 是 私有 的 。Xinterface 在 config.h 中 定义 。 
接口 记录 包含 指向 本 节 稍 后 描述 的 18 个 接口 函数 的 指针 。 本 章 中 <interface functions> 定义 
的 函数 通常 只 用 函数 名 标识 。 例 如 我 们 使 用 gen 来 标识 函数 ， 而 不 用 其 精确 但 元 长 的 说 法 “接口 
记录 的 gen 域 所 指 的 函数 ”。 
接口 记录 还 包含 一 些 指向 其 他 函数 的 指针 ， 编 译 器 前 端 使 用 这 些 函数 为 调试 器 产生 符号 表 : 
(interface functions60)= 67 60 
void (*stabblock) ARGS((int, int, Symbol*)); 
void (*stabend) ARGS((Coordinate *, Symbol, Coordinate **, 
Symbol *, Symbol *)); 
void (*stabfend) ARGS((Symbol, int)); 
void (*stabinit) ARGSC(char *, int, char *[]})); 
void (*stabline) ARGS((Coordinate *)); 
void (*stabsym) ARGS((Symbo1)); 
void (*stabtype) ARGS((Symbol)); 


为 了 节省 空间 ， 本 书 将 不 再 详细 描述 这 些 stab 函数 。 


5.3 符号 


符号 表示 变量 、 标 号 或 常量 ， 用 scope 域 区 分 。 对 于 变量 和 常量 ， 后 端 可 能 查询 type Sk, T 
解数 据 项 的 数据 类 型 后 级 。 对 于 变量 和 标号 ，ref 域 的 浮 点 值 用 于 估计 变量 和 标号 被 引用 的 次 数 ， 
非 零 的 值 表示 变量 或 标号 至 少 被 引用 一 次 。 对 于 标号 、 常 量 和 某 些 变量 ， 联 合 的 域 补充 说 明了 
一 些 额外 的 数据 。 

变量 的 scope 域 可 以 等 于 GLOBAL 、PARAM 或 LOCAL+k (k WREE), sclass 域 可 以 是 
STATIC, AUTO, EXTERN 或 REGISTER。 大 多 数 变量 的 name 域 等 于 变量 在 源 代 码 中 使 用 的 名 
字 。 对 于 临时 变量 和 其 他 生成 的 变量 ， 变 量 名 是 数字 序列 。 对 于 全 局 和 静态 变量 ，u.seg 给 出 了 
变量 定义 点 的 逻辑 段 。 如 果 接 口 标志 wants_ dag 为 0， 则 前 端 生成 显 式 的 临时 变量 以 保存 那些 使 
用 多 次 的 公共 子 表达 式 。 前 端 设置 这 些 临 时 变量 符号 的 ut.cse 域 ，u.t.cse 可 作为 dag 节点 ， 计 算 
所 保存 的 值 。 
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临时 变量 的 temporary 域 和 generated 域 都 置 为 1， 而 标号 和 其 他 生成 的 变量 ， 如 存放 字符 串 
文字 的 变量 ， 只 有 generated 置 为 1。 当 接口 标志 wants_argb 置 为 1 时 ，structarg 标识 结构 参数 。 
wants_argb 将 在 下 面 详细 介绍 。 

标号 的 scope SR“ LABELS, u.Llabel 是 一 个 唯一 标识 该 标号 的 数值 ，name 是 值 的 字符 串 
表示 。 标 号 没有 type 或 sclass。 

常量 的 scope Sh“ CONSTANTS, sclass 等 于 STATIC。 对 于 整 型 或 指针 常量 ，name 是 C 
常量 的 字符 串 表 示 。 对 其 他 类 型 ，name 没有 定义 。 常 量 的 实际 值 存放 在 u.c.v 域 (在 3.6 节 中 定 
X) 中 。 如 果 需 要 生成 一 个 变量 来 存放 常量 ， 那 么 uc.loc 指向 该 变量 的 符号 表 人 和 人口。 

符号 包含 类 型 为 Xsymbol 的 x 域 (Xsymbol 类 型 在 config.h 中 定义 )， 用 于 后 端 存放 符号 中 
与 目标 机 器 相关 的 数据 ， 如 局 部 变量 的 栈 偏 移 量 。x 域 为 后 端 私 有 ， 因 此 它 的 内 容 不 是 接口 的 一 
部 分 。 第 13 章 将 进行 详细 介绍 。 


5.4 类 型 


符号 中 有 一 个 type 域 。 如 果 一 个 符号 表示 一 个 常量 或 变量 ，type 域 就 指向 描述 该 数据 项 类 型 
的 结构 。 后 端 可 以 访问 类 型 结构 的 size Al align 域 ， 以 了 解 类 型 的 以 字 节 为 单位 的 大 小 和 对 齐 限 
制 。 后 端 也 可 以 传递 type 指针 本 身 给 类 型 断言 函数 ， 如 isarray 和 ttob， 在 不 检查 其 他 域 的 情况 
下 了 解 类 型 信息 。 


5.5 dag 操作 
可 执行 代码 用 dag 来 描述 。 函 数 体 是 dag 组 成 的 序列 或 森林 ， 每 个 dag 都 通过 gen 函数 传递 
给 编译 器 后 端 。dag 节点 (有 时 也 叫 节 点 ) 定义 如 下 : 


(c.h typedefs)= 
typedef struct node *Node; 


(c.h exported types)= 62 
struct node { 
short op; 
short count; 
Symbol syms[3]; 
Node kids{2]; 
Node Tink; 
Xnode x; 
$; 
kids 的 元 素 指 向 操作 数 节 点 。 一 些 dag 操作 也 使 用 一 个 或 两 个 符号 表 指 针 作为 操作 数 ， 这 些 操作 
数 存 放 在 syms 中 。 后 端 出 于 自身 需要 可 能 使 用 syms 的 第 三 个 元 素 ， 前 端 在 dag 传递 给 后 端 之 前 
也 会 临时 使 用 它 (参见 12.8 节 )。link 指向 森林 中 下 一 个 dag 的 根 。 - 
count 记录 了 节点 的 值 被 使 用 或 被 其 他 节点 引用 的 次 数 。 只 有 来 自 kids 的 引用 才 被 计数 , 来 
A link 的 引用 不 表示 对 节点 值 的 使 用 ， 不 被 计数 。 事 实 上 ，link 只 对 根 节点 有 意义 ， 表 示 副 作用 
而 不 是 值 的 引用 。 如 果 接 口 标志 wants_dag 为 0， 根 的 引用 次 数 count 总 是 等 于 0。 共享 节点 是 指 
count 大 于 1 的 节点 ， 它 生成 的 代码 只 对 节点 计算 一 次 , 但 是 节点 的 值 被 使 用 count 次 。 
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x 域 是 后 端 对 节点 的 扩展 。 后 端 使 用 config.h 中 定义 的 类 型 Xnode 来 存放 生成 代码 时 需要 的 
各 节点 的 数据 。 第 13 章 中 将 描述 该 域 。 
op 域 存放 dag 操作 符 。 每 个 操作 符 的 最 后 一 个 字符 是 来 自 类 型 定义 列表 的 类 型 后 缀 : 


(c.h exported types) += 
enum { 


J; 


例如 ， 


F=FLOAT， 
D=DOUBLE， 
C=CHAR, 
S=SHORT, 
I=INT, 
U=UNSIGNED, 
P=POINTER, 
=VOID, 
B=STRUCT 


通用 操作 符 ADD 有 变 体 ADDI, ADDU, ADDP 


义 的 后 缀 的 取 值 为 从 1 到 9。 
操作 符 的 定义 : 


(c.h exported types) += 
enum { (operators62) }; 


(operators 62)= 
CNST=1<<4, 


CNSTC=CNST+C, 
CNSTD=CNST+D, 
CNSTF=CNST+F, 
CNSTI=CNST+I, 
CNSTP=CNST+P, 
CNSTS=CNST+S, 
CNSTU=CNST+U, 


ARG=2<<4 ’ 


ARGB=ARG+B, 
ARGD=ARG+D, 
ARGF=ARG+F , 
ARGI=ARG+I, 
ARGP=ARG+P, 


a 
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. ADDF 和 ADDD。 通 过 这 种 方式 定 
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<operators> 的 其 余部 分 定义 了 其 他 操作 符 。 表 5-1 列举 了 每 个 通用 操作 符 及 其 合法 类 型 后 级 、 使 
用 的 kids 和 syms 的 数目 ; kid 的 多 个 值 指 出 了 与 类 型 相关 的 操作 符 变 体 ， 这 些 将 在 下 文 讲述 。 
syms 栏 的 符号 给 出 了 syms 值 的 数目 和 一 个 字母 代码 ， 说 明 对 syms 的 使 用 情况 : 1V 表示 syms[0] 
是 指向 变量 的 符号 ; 1C 表示 syms[0] 是 一 个 常量 ; 1L 表示 syms[0] 是 标号 ; 1S 表示 syms[0] 是 常 
量 且 常 量 值 是 字 节 大 小 ; 2S 增加 syms[1], H. syms[1] 的 值 也 是 常量 ， 表 示 对 齐 字 节 数 。 对 大 多 
数 操作 符 ， 类 型 后 级 表示 要 执行 的 操作 类 型 和 结果 类 型 。ADDP 和 SUBP 是 例外 ， 其 中 ADDP 是 
整 型 操作 数 kids[1] 加 到 指针 操作 数 kids[0] H, SUBP 是 从 指针 操作 数 kids[0] 中 减 去 整 型 操作 数 
kids[1]。 赋 值 、 比 较 、 参 数 和 一 些 调用 操作 符 没有 返回 结果 ， 它 们 的 类 型 后 组 表明 了 要 执行 的 操 


作 类 型 。 
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表 5-1 节点 操作 符 
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操作 
参数 地 址 
全 局 地 址 
局 部 地 址 
常量 
位 补 码 
从 char 转换 
从 double 转换 
从 float 转换 
从 int 转换 
从 指针 转换 
从 short 转换 
从 unsigned 转换 
取 
非 
加 


右 移 

减 

赋值 
等 于 转移 
大 于 或 等 于 转移 
大 于 转移 
小 于 或 等 于 
小 于 转移 
不 等 于 转移 
参数 

函数 调用 
从 函数 返回 
无 条 件 转移 
标号 定义 


叶 操作 产生 一 个 变量 的 地 址 或 常量 值 。syms[0] 表示 该 变量 或 常量 。 单 目 操作 除 INDIR 外 ， 
都 是 接受 并 产生 一 个 数值 ，INDIR 接受 一 个 地 址 得 到 该 地 址 存放 的 值 。 没 有 BCOMI 操作 符 ， 符 
号 整 型 的 补 码 利 用 BCOMU 获得 。 二 元 操作 接受 两 个 数 ， 生 成 一 个 数 。 

转换 操作 的 类 型 后 缀 表示 结果 的 类 型 。 例 如 ，CVUI 将 一 个 无 符号 数 (器) 转换 为 符号 整数 
( 工 )。 无 符号 数 和 短 整数 (short) 之 间 、 无 符号 数 和 字符 之 间 的 转换 属于 无 符号 转换 ， 而 整数 和 
短 整 数 、 整 数 和 字符 之 间 的 转换 属于 符号 转换 。 例 如 ，CVSU 将 无 符号 短 整数 转换 为 无 符号 整数 ， 
只 要 高 位 清 零 。CVSI 将 符号 短 整 数 转换 为 符号 整数 ， 需 要 传播 短 整数 的 符号 位 以 填充 高 位 。 
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对 于 不 在 表 5-1 中 的 转换 操作 ， 前 端 会 创建 dag 或 组 合 转换 以 实现 相应 的 功能 。 例 如 ， 将 短 
整数 转换 为 浮 点 ， 需 要 首先 将 短 整 数 转换 为 整数 ， 再 将 整数 转换 为 双 精 度数 。 图 5-1 中 用 箭头 表 
示 了 16 种 转换 操作 。 沿 着 从 源 类 型 到 目的 类 型 的 路 径 可 以 形成 组 合 的 转换 操作 。 


图 5-1 转换 


ASGN 将 kids[1] 的 值 存 人 kids[0] 指定 的 地 址 单元 。syms[0] 和 syms[1] 分 别 指向 表示 kids[1] 
值 的 大 小 和 对 齐 字 节 数 的 整 型 常量 的 符号 表 入 口 。 这 样 的 安排 对 于 结构 赋值 和 初始 化 自动 数组 的 
操作 ASGNB 尤其 有 用 。 

无 条 件 跳 转 JUMPYV 的 转移 地 址 由 kids[0] 计算 得 来 。 对 大 多 数 转移 操作 ，kids[0] 是 常 
it ADDRGP 节点 ,但 是 switch 语句 计算 的 是 可 变 的 目标 地 址 ， 因 此 kids[0] 可 以 是 任意 的 计 
算 。LABEL 定义 的 标号 由 syms[0] 给 出 ， 否 则 是 个 空 操作 。 对 于 比较 操作 ， 如 果 比 较 结 果 为 真 ， 
syms[0] 指向 将 要 转移 的 标号 的 符号 表 入 口 。 因 为 等 于 测试 不 需要 对 符号 位 进行 特殊 考虑 ， 无 符 
号 的 等 于 和 不 等 于 操作 使 用 符号 比较 来 完成 。 

零 个 或 多 个 ARG 节点 加 上 CALL 节点 表示 函数 调用 。 前 端 解决 函数 的 舰 套 调用 : 首先 执行 
内 层 的 函数 调用 ,将 它 的 值 赋 给 一 个 临时 变量 ， 随 后 使 用 该 临时 变量 。 因 此 ，ARG 节点 总 是 与 
森林 中 的 下 一 个 CALL 节点 关联 。 如 果 wants dag 等 于 1，CALL 节点 总 是 作为 森林 的 根 节点 出 
现 。 如 果 wants_dag 等 于 0， 只 有 CALLYV 节点 才能 作为 根 出 现 ， 其 他 的 CALL 节点 只 能 作为 根 
节点 ASGN 的 右 操 作 数 出 现 。 

CALL 节点 的 syms[0] 所 指向 的 符号 的 唯一 非 空域 是 type， 表 示 被 调用 者 的 函数 类 型 。 

ARG 节点 确立 了 kids[0] 计算 得 出 的 值 作为 下 一 个 参数 。syms[0] 和 syms[1] 指向 的 符号 表 入 
口 分 别 是 参数 的 大 小 和 对 齐 字 节 数 的 常量 。 

在 CALL 节点 中 ，kids[0] 计算 被 调用 者 的 地 址 。CALLB 节点 用 于 调用 返回 值 为 结构 的 函数 ， 
kids[1] 计算 存放 返回 值 的 临时 变量 的 地 址 。CALLB 节点 和 函数 头 代 码 共同 将 CALLB 的 kids[1] 
存放 到 被 调用 者 的 第 一 个 局 部 变量 中 。SPARC 接口 程序 function 和 1local 以 及 CALLB 的 产生 过 
程 展 示 了 这 种 合作 。 由 于 在 引用 返回 值 时 ， 前 端 实际 引用 的 是 临时 变量 ， 因 此 CALLB 节点 中 
count 等 于 0。 操 作 符 中 没有 RETB， 前 端 使 用 ASGNB 给 第 一 个 局 部 变量 指定 的 地 址 赋值 。 只 有 
当 接 口 标志 wants_callb 等 于 1 时 ，CALLB 节点 才能 出 现 ， 参见 5.6 节 。RET 节点 中 ，kids[0] i+ 

, 算 返 回 值 。 

由 于 大 部 分 机 器 要 求 传递 的 参数 必须 至 少 是 整数 ， 因 此 ， 字 符 和 短 整 数 实 参 总 是 被 提升 为 相 
应 的 整数 类 型 ， 即 使 在 有 原型 的 时 候 。 在 函数 的 入 口 ， 提 升 的 值 重新 转换 为 形 参 声明 的 类 型 。 例 
an, PRR 


f(char OQ eo fc); Y 
形成 图 5-2 所 示 的 两 个 森林 。 图 中 实 线 代表 kids 指针 ， 虚 线 代表 link 指针 。 左 边 的 森林 保存 了 一 


个 dag， 表 示 将 变 宽 的 实 参 变 窗 ， 转 换 为 形 参 指定 的 类 型 。 在 左边 的 dag 中 ， 左 边 的 ADDRFP c 
表示 形 参 , 在 INDIRC 之 下 的 ADDRFP c 表示 实 参 。 右 边 的 森林 包含 两 个 dag， 第 一 个 提升 实 参 
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c， 使 它 作为 整数 传递 ， 第 二 个 dag 调用 fo 


ASGNC T ------- » CALLI 
ADDRFP CVIC CVCI ADDRGP 
c | f 
INDIRC INDIRC 
ADDRFP ADDRFP 
c c 


图 5-2 f(char c){f(c);} 的 森林 


ASGN INDIR, ARG, CALL 和 RET 的 无 符号 变 体 可 以 省 略 。 符 号 和 无 符号 整数 的 大 小 相同 ， 
可 以 使 用 相应 的 符号 操作 符 来 完成 无 符号 操作 。 同 理 ， 操 作 符 中 也 没有 CALLP 和 RETP， 可 以 
使 用 CVPU 和 RETI 返 回 指针 。 因 此 ， 可 以 通过 使 用 CALLI 和 CVUP 来 调用 返回 指针 值 的 函数 。 

在 表 5-1 中 ，ASGN 以 及 ASGN 之 后 的 操作 符 具 有 副作用 ， 它 们 作为 根 节 点 出 现在 森林 中 ， 
引用 次 数 为 0。CALLD、CALLF 和 CALLI 可 能 产生 一 个 值 ， 此 时 它们 作为 ASGN 节点 的 右 操作 
数 出 现 ， 且 引用 次 数 为 1。 除了 这 种 例外 情况 ， 所 有 具有 副作用 的 操作 符 总 是 出 现在 dag 森林 的 
根 节 点 ， 出 现 的 顺序 与 它们 被 执行 的 顺序 一 致 。 前 端 通过 对 森林 的 dag 的 排序 来 表明 对 计算 顺序 
的 所 有 限制 。 如 果 ANSI 规定 x 必须 在 y 之 前 计算 , 则 x 的 dag 必须 出 现在 y 的 dag 之 前 的 森林 ， 
或 者 x Aly 出 现在 同一 dag, 但 是 x 出 现在 以 y 为 根 的 子 树 中 。 例 如 : 

int i, *p; FO { i = *p++; } 
f 的 函数 体 代码 产生 的 森林 如 图 5-3 所 示 。INDIRP 取 p 的 值 ，ASGNP 将 P 的 值 修改 为 INDIRP 
与 4 求 和 的 结果 ，ASGNI 将 原来 的 p 值 指向 的 整数 赋 给 i。 由 于 在 森林 中 INDIRP 出 现在 p 被 修 
改 之 前 ， 所 以 保证 了 INDIRI 使 用 的 是 p 原来 的 值 。 
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图 5-3 int i, *p; fO {i=*p+;} 的 森林 


5.6 ”接口 标志 


接口 标志 有 助 于 为 目标 机 器 配置 前 端 。 
(interface flags 65)= 66 60 
unsigned little_endian:1; 
如 果 目 标 机 器 是 低位 优先 ，little_endian FF 1; 如 果 是 高 位 优先 ， 则 等 于 0。 如 果 每 个 字 
的 最 低 有 效 位 字 节 在 字 的 所 有 字 节 中 地 址 最 小 ， 则 计算 机 是 低位 优先 的 。 例 如 ，32 位 无 符号 值 
0x AABBCCDD 的 低位 优先 的 字 的 布局 为 : 
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jaa [ma | oc] mn 
字 节 的 地 址 从 右 到 左 递增 。 


如 果 每 个 字 的 最 低 有 效 位 字 节 在 字 的 所 有 字 节 中 地 址 最 大 ， 则 计算 机 是 高 位 优先 的 。 例 如 ， 
32 位 无 符号 值 x AABBCCDD 的 高 位 优先 的 字 的 布局 为 : 
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换 句 话说 ，lcc 前 端 以 无 符号 整数 的 字 节 的 地 址 顺序 放置 一 列 位 域 ， 在 低位 优先 的 机 器 上 从 最 低 
有 效 位 到 最 高 有 效 位 ， 在 高 位 优先 的 机 器 上 正好 相反 。ANSI 支持 两 种 顺序 ， 但 是 跟随 地 址 增长 
是 一 般 惯 例 。 
(interface flags 65)+= és 66 60 
unsigned mulops_calls:1; 





如 果 由 硬件 实现 乘 、 除 和 求 余 ，mulops_calls 应 等 于 0。 如 果 硬 件 没有 实现 ， 而 是 交 给 库 例 程 实 
现 ， 则 mulops calls 等 于 1。 前 端 将 府 套 调用 展开 执行 ， 因 此 ， 前 端 需要 知道 什么 操作 通过 调用 
库 例 程 模拟 (emulate) 计算 。 可 能 有 必要 推广 这 一 特性 ， 处 理 其 他 模拟 指令 ， 但 迄今 为 止 ， 还 没 
有 发 现 有 目标 机 融 需 要 更 多 这 样 的 标志 。 


(interface flags 65)+= 66 6§ 60 
unsianed wants_cal1b:1; 


该 标志 通知 前 端 产生 CALLB 节点 以 调用 返回 结构 的 函数 。 如 果 wants_callb 为 0， 前 端 不 生成 
CALLB 节点 ， 而 是 使 用 更 简单 的 操作 实现 调用 : 首先 传递 一 个 额外 的 、 位 于 第 一 位 的 隐藏 参数 ， 
该 参数 指向 一 个 临时 变量 ， 并 以 ASGNB dag 作为 每 个 结构 函数 的 结束 ， 复 制 返回 值 到 临时 变量 。 
当 调 用 者 需要 使 用 返回 值 时 ， 就 引用 该 临时 变量 。 如 果 wants_callb 等 于 1， 前 端 产生 CALLB 市 
点 ，CALLB 节点 的 kids[1] 域 计算 存放 返回 值 的 空间 的 地 址 ， 且 任意 返回 结构 的 函数 的 第 一 个 局 
部 变量 都 保存 该 地 址 。 设 置 wants_callb 为 1 的 后 端 必须 实现 这 一 约定 ， 例 如 ， 根 据 kids[1] 初始 
化 第 一 个 局 部 变量 的 地 址 。 如 果 wants callb 等 于 0， 后 端 不 能 控制 返回 结构 参数 的 函数 的 代码 ， 
于 是 后 端 通常 也 不 能 模仿 (mimic) 已 有 的 调用 约定 。 本 书 中 ，MLPS 和 X86 代码 产生 器 初始 化 
wants_callb 为 0， 前端 CALLB 的 实现 与 MIPS 的 调用 约定 一 致 。 
(interface flags 65)+= 66 66 60 
unsigned wants_argb:1; 

该 标志 告诉 前 端 产 生 ARGB 节点 以 传递 结构 参数 。 如 果 wants_argb 等 于 0， 前 端 不 产生 ARGB 
节点 ， 而 是 使 用 更 简单 的 操作 实现 结构 参数 : 创建 ASGNB dag， 将 结构 参数 复制 到 临时 变量 ， 传 
递 指向 该 临时 变量 的 指针 ， 增 加 一 个 额外 的 对 被 调用 函数 的 参数 的 间接 引用 ， 改 变 被 调用 函数 的 
形 参 类 型 以 反映 这 种 转换 。 前 端 为 这 些 结构 参数 设置 structarg 标志 ， 以 便 与 其 他 真正 的 结构 指针 
区 分 开 来 。 如 果 wants_argb 为 0， 后 端 不 能 控制 结构 参数 的 代码 ， 因 此 ， 通 常 后 端 不 能 模仿 已 有 
的 调用 约定 。 在 本 书 中 ，SPARC 代码 产生 器 将 wants_argb 初始 化 为 0， 其 他 代码 产生 器 将 wants_ 
argo 初始 化 为 1。 前端 ARGB 的 实现 与 SPARC 调用 约定 一 致 。 


(interface flags 65)+= 8 67 60 
unsigned left_to_right:1; 
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该 标志 告诉 前 端 按照 从 左 到 右 的 顺序 计算 和 提交 参数 给 后 端 。 即 ， 在 CALL 节点 之 前 的 ARG 证 
点 出 现 的 顺序 与 源 代码 的 参数 的 顺序 一 致 。 如 果 left_to_right 为 0， 则 参数 按照 从 右 到 左 的 顺序 
进行 计算 和 传递 。ANSI 允许 两 种 顺序 。 


(interface flags 65)+= 66 60 
unsigned wants_dag:1; 


该 标志 告诉 前 端 传递 dag 给 后 端 。 如 果 标 志 为 0， 前 端 要 处 理 所 有 节点 的 引用 次 数 大 于 1 的 dag 
节点 : 创建 临时 变量 ， 将 节点 赋 给 该 变量 ， 在 所 有 使 用 原 节 点 的 地 方 改 成 使 用 该 临时 变量 。 当 
wants_dag 等 于 0 时 ， 所 有 引用 次 数 都 为 0 或 1， 只 保留 树 一 一 退化 的 dag， 而 没有 通常 的 dags 
本 书 的 代码 产生 器 使 用 的 代码 生成 方法 需要 树 ， 因 此 将 wants_dag 初始 化 为 0， 但 lec 的 其 他 代码 
产生 器 是 从 dag 中 生成 代码 的 。 


5.7 初始 化 
在 初始 化 过 程 中 ， 前 端 调用 


(interface functions 60)+= 而 g 60 
void (*progbeg) ARGS(Cint argc, char *argv[])); 


argv[0..argc-]] 指向 前 端 不 能 识别 的 程序 参数 ， 这 些 参数 被 认为 是 与 特定 目标 机 器 相关 的 选项 。 
progbeg 处 理 这 些 选 项 并 且 初 始 化 后 端 。 
在 编译 的 最 后 ， 前 端 调用 


(interface functions 60)+= 命 g 60 
void (*progend) ARGS((void)); 


使 后 端 有 机 会 完成 输出 。 在 一 些 目 标 机 右上 ，progend 不 含 任何 操作 ， 为 空 。 


5.8 定义 

当前 端 定义 一 个 scope 为 CONSTANTS、LABELS 或 GLOBAL 的 新 符号 ， 或 一 个 静态 变量 
时 ， 要 调用 

(interface functions 60) += 67 g o 

void (*defsymbol) ARGS((Symbol)); 

使 后 端 有 机 会 初始 化 Xsymbol 域 。 例 如 ， 后 端 可 能 想 为 符号 定义 一 个 不 同 的 名 字 。 在 本 书 中 一 
些 目标 机 器 上 按 约定 要 在 全 局 变量 名 前 加 上 前 缀 下 划 线 “_”。function 函数 初始 化 scope REF 
PARAM 的 符号 的 Xsymbol 域 ，local 函数 初始 化 scope 为 LOCAL+k 的 符号 的 Xsymbol 域 ， 而 
address 函数 则 初始 化 表示 地 址 计算 的 符号 的 Xsymbol 域 。 了 

如 果 符 号 在 一 个 模块 中 定义 ， 在 另外 的 模块 中 使 用 ， 那么 该 符号 是 输出 符号 ; 反之 ， 若 符号 
在 一 个 模块 中 使 用 ， 在 另外 的 模块 中 定义 ， 则 该 符号 是 输入 符号 。 前 端 调用 下 面 的 函数 : 

(interface functions 60) += 6 & 0 


void (*export) ARGS((Symbol)); 
void (*import) ARGS((Symbo1)); 
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宣告 (announce) 符号 是 输出 或 输入 符号 。 只 有 非 静态 变量 或 函数 才能 够 输出 。 前 端 总 是 在 定义 
符号 之 前 调用 export， 但 在 符号 使 用 前 后 的 任何 时 候 都 可 以 调用 import。 大 多 数目 标 机 器 需要 
调用 export 产 生 汇编 指示 。 某 些 目标 机 器 ， 如 MIPS 后 端 ， 不 需要 import 做 任何 动作 ， 因 此 ， 
import 为 空 。 

(interface functions 60)+= Egg 60 

void (*global) ARGS((Symbol)); 

该 函数 产生 定义 全 局 变量 的 代码 。 在 调用 global 之 前 ， 前 端 已 经 调用 了 segment 函数 (下 面 将 要 
描述 )， 为 定义 指定 正确 的 逻辑 段 。 前 端 将 符号 的 useg 设 为 该 逻辑 段 ， 然 后 调用 global 函数 和 相 
应 的 数据 初始 化 函数 。global 必须 产生 必要 的 对 齐 指示 并 定义 标号 。 

前 端 调 用 local 函数 宣告 符号 是 局 部 变量 : 


(interface functions 60)+= 68 60 
void (*local) ARGS((Symbo1)) ; 


local 宣告 符号 是 临时 变量 的 方式 与 此 类 似 ， 将 设置 符号 的 temporary 标志 。local 必须 初始 化 
Xsymbol 域 ， 该 域 保存 局 部 栈 偏 移 量 和 寄存 器 号 等 数据 。 
前 端 调用 
(interface functions 60) += 63 68 60 
void (*address) ARGS((Symbol p, Symbol q, int n)); 
初始 化 符号 q， 使 9 表示 地 址 xtn， 其 中 x 是 p 表示 的 地 址 ,n 是 正 的 或 负 的 整数 。 与 defsymbol 
一 样 ，address 初始 化 q 的 Xsymbol 域 ， 但 初始 化 基于 p 的 Xsymbol 和 n 的 值 。 典 型 的 address 调 
用 是 初始 化 局 部 变量 或 参数 符号 , q 表示 的 地 址 是 p 的 栈 偏 移 量 加 上 mn, q 的 xname Æ p 的 xname 
连接 上 -+n 或 -n。 例 如 ， 如 果 n 等 于 40，p 指向 名 为 array 的 符号 ， 如 果 后 端 通过 加 上 前 级 “_” 
形成 名 字 ， 则 address 创建 名 字 _array+40， 使 得 加 操作 可 以 由 汇编 器 完成 ， 而 不 占用 运行 时 间 。 
address 的 参数 可 以 是 全 局 变量 、 参 数 和 局 部 变量 ， 但 这 些 符 号 必须 已 经 由 defsymbol, function 
或 local 完成 了 初始 化 。 
前 端 调 用 上 述 接口 过 程 宣告 符号 ， 调 用 返回 后 ， 前 端 将 defined 标志 设置 为 1。defined 标志 
可 以 防止 前 端 多 次 宣告 同一 个 符号 。 
loc 前 端 管理 4 个 逻辑 段 ， 分 隔 代 码 、 数 据 和 文字 : 
(c.h exported types) += } B 
enum { CODE=1, BSS, DATA, LIT }; 
前 端 将 可 执行 代码 发 送 到 CODE 段 ， 将 未 初始 化 的 变量 定义 到 BSS 段 ， 将 已 初始 化 的 变量 定义 
到 DATA 段 并 初始 化 ， 常 量 则 定义 并 初始 化 到 LIT 段 。 前 端 调 用 
(interface functions 60) += rs @ 60 
void (*segment) ARGS((int)); 
宣告 说 明 段 的 改变 。 参 数 应 属于 上 面 定义 的 4 种 段 之 一 。segment 将 逻辑 段 映 射 到 目标 机 器 提供 
的 段 上 。 
CODE il LIT 可 以 映射 到 只 读 的 段 ，BSS 和 DATA 段 必须 映射 到 可 读 写 的 段 上 。CODE 和 
LIT 段 能 够 映射 到 同一 段 ， 从 而 可 以 合并 在 一 起 。 同 样 ，BSS、DAIA 和 LIT 可 以 任意 组 合 合 
在 只 有 一 个 段 的 目标 机 器 上 ，CODE 段 才 能 够 与 其 他 段 合并 。 
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5.9 常量 
接口 函数 


(interface functions 60)+= & @ 60 
void (*defaddress) ARGS((Symbol)); 
void (*defconst) ARGS((int ty, Value v)); 
对 常量 进行 初始 化 。defeonst 函数 产生 指示 符 以 定义 一 个 单元 ， 并 将 该 单元 初始 化 为 常量 值 。v 
是 常量 值 ，fy 是 常量 的 类 型 的 编码 ， 从 而 可 以 指出 应 访问 Value v 的 哪个 元 素 ， 如 下 表 所 示 : 


ty a Sac 类 型 
E v.uc 字符 型 

s Pee a Sates sal 短 整 型 
z 

U 无 符号 型 
rem 
: FAN 

D 双 精 度 型 


编码 C、S、I… 标 识 不 同 的 操作 符 类 型 后 级。 符号 域 vsc 和 v.ss 可 以 蔡 换 vuc Fil v.us, 但 是 
defconst 只 能 初始 化 规定 数目 的 位 。 如 果 ty 等 于 P， 那 么 v.p 保 存 了 某 些 指针 类 型 的 数字 常量 。 
这 来 源 于 一 些 诸如 char *p= ( char*) 0 x FO 的 声明 。defaddress 初始 化 涉及 符号 的 指针 常量 ， 而 不 
是 涉及 数字 的 指针 常量 。 

第 16 章 到 第 18 章 的 defconst 函数 允许 交叉 编译 ， 因 此 这 些 函 数 要 适应 不 同 的 表示 和 字 节 顺 
序 。 例 如 ， 如 果 在 低位 优先 的 机 器 上 编译 生成 高 位 优先 的 机 器 的 代码 (反之 亦 然 ) 时 ，defeonst 
要 交换 双 精 度数 据 的 两 部 分 。 

通常 ，ANSI C 编译 器 不 能 将 对 浮 点 常量 进行 编码 的 工作 留 给 汇编 器 处 理 ， 很 少 有 汇编 器 能 
够 实现 C 的 类 型 转换 。 例 如 : 语句 


double x = (float)0.3; 
正确 地 初始 化 时 最 低 有 效 位 为 0。 典 型 的 汇编 命令 


.double 0.3 
不 能 实现 类 型 转换 ， 因 而 错误 地 初始 化 x， 使 x 的 最 低 有 效 位 不 为 0。 因此 ， 大 多 数 defconst 产 
生 两 个 无 符号 数 初始 化 双 精 度 。 


(interface functions 60) += 命 外 6 
void (*defstring) ARGSCCint n, char *s)); 


该 函数 产生 代码 将 长 度 为 len 的 字符 串 初 始 化 为 s 中 的 字符 。 前 端 将 转 义 序列 ( escape sequence) 
(如 \000 ) 转换 为 相应 的 ASCII 字符 。s 中 可 能 能 有 空 字 节 (null), null 不 能 作为 s 的 结束 标志 ， 
所 以 defstring 的 参数 中 不 仅 包含 s， 还 包含 字符 串 长 度 。 


(interface functions 60) += 6 6 
void (*space) ARGS(Cint)); 


emits code to allocate n zero bytes. 
产生 代码 以 分 配 n 个 值 为 0 的 字 节 。 


5.10 AŽ 


前 端 将 函数 编译 为 私有 数据 结构 。 在 将 函数 的 任意 部 分 传递 给 后 端 之 前 ， 前 端 必须 先 对 每 个 
函数 进行 完整 的 分 析 。 这 样 的 组 织 允 许 某 些 特 定 的 优化 。 例 如 ， 前 端 只 有 在 处 理 完整 的 函数 时 ， 
才能 识别 局 部 变量 和 没有 分 配 地 址 的 参数 ， 只 有 这 些 变量 才能 分 配 到 寄存 器 中 。 

三 个 接口 函数 和 两 个 前 端 函数 协同 完成 函数 的 编译 。 


(interface functions 60) + 6 7 60 


void (*function) ARGS((Symbol, Symbol[], Symbol[], int)); 
void (*emit) ARGS((Node)); 
Node (*gen) ARGS((Node)) ; 
(dag.c exported functions) = 243 
extern void emitcode ARGS((void)); r 
extern void gencode ARGS((Symbol[], Symbo1[])); 
在 每 个 函数 的 结尾 ， 前 端 调用 function 函数 生成 并 发 送 代码 。function 的 典型 形式 是 : 


(typical function 70) = 

void function(Symbol f, Symbol caller{], Symbol callee[], 
int ncalls) { = 
(initialize) 
gencode(caller, callee); 
(emit prologue) 
emitcode(); 
(emit epilogue) 

} 


前 端 过 程 gencode 过 历 前 端的 和 有 数据 结构 ， 将 dag 的 每 个 森林 传递 给 后 端 过 程 gen. gen 选择 代 
#5, FE dag 上 添加 注释 以 记录 选择 的 结果 ， 并 返回 一 个 dag 指针 。gencode 还 可 以 调用 local 宣告 
新 的 局 部 变量 ， 调 用 blockbeg 和 blockend 宣告 每 个 块 的 开始 和 结束 等 。 前 端 过 程 emitcode 再 次 
遍历 私有 数据 结构 ， 将 gen 返回 的 指针 传递 给 emit 函数 发 送 代 码 。 

这 样 的 组 织 方式 使 得 后 端 可 以 灵活 地 生成 函数 头 和 结束 部 分 。 在 调用 gencode 之 前 ，function 
初始 化 函数 参数 的 Xsymbol 域 ， 完 成 其 他 必要 的 针对 每 个 函数 的 初始 化 。 调 用 gencode 之 后 ， 过 
程 活 动 记录 (或 帧 ) 的 大 小 以 及 需要 保存 的 寄存 器 都 已 确定 ， 这 些 信息 通常 在 生成 函数 的 开始 部 
分 时 需要 使 用 。 在 调用 emitcode 输出 函数 体 代 码 之 后 ，function 发 送 函 数 的 结束 部 分 。 

function 的 参数 f 指 向 当前 函数 的 符号 ，ncalls 记录 了 当前 函数 调用 其 他 函数 的 次 数 。ncalls 
使 得 叶 函 数 ( 即 不 调用 其 他 函数 的 函数 ) 可 以 得 到 特殊 处 理 。 

caller 和 callee 都 是 指向 符号 的 指针 数组 ， 这 两 个 数组 以 空 指针 标志 结束 。caller 中 的 符号 是 
调用 者 传递 给 函数 的 参数 ，callee 中 的 符号 是 在 函数 中 可 见 的 参数 。 对 许多 函数 而 言 ， 两 个 数组 
中 的 符号 相同 ， 但 符号 的 sclass 和 type 可 能 不 同 。 例 如 : 


single(x) float x; { ... } 
调用 single 时 可 能 将 一 个 双 精 度数 据 作为 实 参 , 但 在 single P, xÆ float. Bl, caller[0]->type 等 
于 doubletype (表示 双 精 度 的 前 端 全 局 变量 )，callee[0]->type 等 于 floattype, Mui: 

int strlen(register char *s) { ... } 


caller[0]->sclass 是 AUTO, {fil callee[0]->sclass 为 REGISTER。 即 使 没有 寄存 器 属性 说 明 ， 前 端 也 
将 经 常 引 用 的 参数 指定 成 REGISTER 方式 ， 从 而 设置 callee 的 sclass 为 REGISTER。 为 了 避免 阻 
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碍 程序 设计 者 的 意图 ， 只 有 当 没 有 显 式 的 寄存 器 局 部 变量 时 ， 才 使 用 这 种 指定 方式 。 

caller 和 callee 都 传递 给 gencode。 如 果 caller[i]->type 和 callee[i]->type 不 同 ， 或 caller[i]-> 
sclass 和 callee[i]->sclass 的 值 不 同 ，gencode 生成 一 条 赋值 语句 ， 将 caller[i] WA callee[ij。 如 果 
类 型 不 相等 ， 该 赋值 包括 类 型 转换 。 例 如 ，single 函数 中 对 x 的 赋值 包括 从 double 到 float 的 截 
取 转 换 。 对 包含 寄存 器 声明 的 参数 ，function 必须 为 其 分 配 一 个 寄存 器 ， 并 且 相 应 地 初始 化 x 域 ， 
或 者 将 callee 的 sclass 改 为 AUTO， 避 免 不 必 要 的 从 caller[i] 到 callee[i] 的 赋值 。 

当 function 函数 希望 给 参数 分 配 一 个 寄存 器 时 ， 它 可 以 将 callee[ji]->sclass 由 AUTO 改变 
为 REGISTER。 例 如 ，MIPS 的 调用 约定 规定 某 些 参数 可 以 通过 寄存 器 传递 ， 所 以 在 叶 函 数 中 ， 
function 将 为 相应 的 callee 分 配 寄存 器 。 相 反 ， 如 果 设 置 了 callee[i]->addressed， 在 函数 体 中 需要 
使 用 参数 的 地 址 ， 那 么 在 大 多 数 机 器 上 ， 该 参数 必须 存储 在 内 存 中 。 

大 多 数 后 端 为 每 个 函数 活动 定义 了 一 个 参数 创建 区 域 (argument-build area)， 存 储 调用 其 他 
函数 所 需 的 参数 。 前 端 将 肉 套 的 调用 展开 ( unnest)， 因 此 ， 参 数 创 建 区 域 可 用 于 所 有 的 调用 。 后 
端 应 保证 该 区 域 充分 大 ， 足 以 保存 最 大 的 参数 列表 。 当 调用 一 个 函数 时 ， 调 用 者 的 参数 创建 区 域 
就 成 为 被 调用 者 的 实 参 。 

由 于 一 些 目标 机 器 用 寄存 器 传递 某 些 参数 ， 因 此 调用 不 能 舱 套 。 如 果 我 们 试图 为 诸如 
f(a,g(b)) 的 符 套 调用 生成 代码 ， 并 且 如 果 参 数 从 左 到 右 求 值 并 建立 ， 由 于 a 和 b 都 使 用 第 一 个 参 
数 寄存 器 ， 而 a 应 在 b 之 后 放 和 人 寄存 器 ， 但 生成 的 代码 却 首先 将 a 加 载 到 第 一 个 寄存 器 ， 然 后 将 
b 加 载 到 同一 寄存 器 从 而 破坏 a。 

某 些 调用 约定 是 将 参数 放 入 栈 中 ， 这 样 就 可 以 处 理 骨 套 调用 ， 也 不 再 一 定 需要 参数 创建 区 
域 。 但 将 嵌 套 调用 展开 的 方法 还 有 另 一 个 优点 : 栈 溢出 只 会 发 生 在 函数 的 入口 处 ， 这 对 于 那些 需 
要 在 函数 开始 部 分 有 显 式 代码 检测 栈 溢出 的 目标 机 器 非常 有 用 。 

对 每 个 块 ， 前 端 首先 按 声明 的 顺序 宣告 那些 带 显 式 寄 存 器 声明 的 局 部 变量 ， 使 得 程序 员 能 够 
控制 寄存 器 分 配 。 然 后 ， 前 端 从 它 估 计 最 常 使 用 的 变量 开始 宣告 其 余 变量 。 前 端 甚至 可 以 将 那些 
地 址 未 被 使 用 且 其 使 用 次 数 可 能 超过 两 次 的 局 部 变量 指定 为 REGISTER 类 别 。 声 明 的 顺序 以 及 
修改 sclass 域 ， 两 种 措施 合作 ， 使 得 大 部 分 经 常 使 用 的 局 部 变量 即使 没有 用 寄存 器 属性 说 明 ， 也 
还 能 存放 在 寄存 器 中 。 

如 果 p 的 sclass 是 REGISTER，local 也 可 能 拒绝 为 它 分 配 寄存 器 ， 并且 将 它 的 sclass 改 为 
AUTO。 如 果 后 端 已 经 将 所 有 可 用 的 寄存 器 分 配给 更 有 用 的 局 部 变量 ， 后 端 没 有 其 他 选择 ， 就 只 
能 修改 p 的 sclass。 与 参数 处 理 一 样 local 也 能 为 sclass 等 于 AUTO 的 局 部 变量 指派 寄存 器 ， 并 
将 该 变量 的 sclass 改 为 REGISTER， 但 是 只 有 在 变量 符号 的 addressed 域 等 于 0 时 ， 才 能 这 样 做 。 

源 语 言 块 中 的 花 括 号 规定 了 局 部 变量 的 生存 期 (lifetime)。gencode 调用 下 面 的 函数 宣告 块 的 
开始 和 结束 : 

(interface functions 60)+= 70. 60 

void (*blockbeg) ARGS( (Env *)); 3] 
void (*blockend) ARGSCCEnv *)); 
在 config.h 中 定义 的 Env 与 目标 机 器 相关 ， 一 般 包 括 重用 局 部 帧 空间 中 与 块 关联 的 部 分 ， 以 及 释 
放 块 内 指派 给 局 部 变量 的 寄存 器 所 需要 的 数据 。 例 如 ，blockbeg 在 Env 中 记录 帧 的 大 小 和 块 开始 
时 已 被 占用 的 寄存 器 ; 如 果 新 的 块 压 栈 深度 超过 最 大 允许 值 ，blockend 恢复 寄存 器 状态 ， 修 改 栈 。 
第 13 章 将 详细 描述 这 种 情况 。 
前 端 调用 gen 选择 代码 ， 参 数 为 dag 组 成 的 森林 。 例 如 5.5 节 的 图 5-3 给 出 了 下 面 代码 的 森林 : 
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int i, *p; FO { i = *p+t+; } 


下 表 给 出 了 按 后 序 遍 历 的 森林 的 线性 表示 。 
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这 个 森林 包括 3 个 dag， 根 节点 分 别 为 节点 2、5、8。 由 于 取 p 的 值 的 INDIRP 节点 (节点 2) 在 
节点 5 之 前 执行 ， 尽 管 节点 5 修改 了 p， 随 后 的 节点 7 仍 使 用 p 的 原始 值 ， 读 取 该 值 所 指向 的 
整数 。 

gen 遍历 森林 ， 选 择 代码 ， 但 并 不 产生 任何 代码 ， 这 是 因为 在 产生 函数 的 开始 部 分 之 前 需要 
确定 一 些 事情 ， 如 所 需 的 寄存 器 等 。 因 此 gen 只 是 在 节点 的 x 域 加 上 注释 ,标识 它 所 选择 的 代 
码 ， 返 回 一 个 指针 ， 该 指针 最 终 传递 给 后 端 emit， 由 emit 输出 代码 。 一 旦 前 端 调 用 gen， 前 端 将 
不 再 使 用 节点 的 内 容 ，gen 可 以 自由 地 修改 节点 。 

emit 产生 整个 森林 的 代码 。 典 型 的 处 理 是 ， 遍 历 森 林 ， 根 据 操作 代码 或 gen 存放 在 节点 中 的 
相关 值 来 输出 代码 。 


5.11 接口 绑 定 


编译 选项 -target=name 指定 为 何 种 目标 机 器 编译 程序 。 可 用 目标 机 器 的 名 字 -接口 对 来 存放 
在 全 局 变量 bindlings 中 。 
(interface 59) += 672 ıı 
typedef struct binding { 
char *name; 
Interface *ir; 
} Binding; 


extern Binding bindings[]; 
前 端 识 别 编译 选项 -target THEY ARELA, RASA A Larder eT EEE IR 中 。 


(interface 59) 十 三 mou 
extern Interface *IR; 
前 端 需要 调用 接口 函数 ， 或 需要 读 取 类 型 度量 或 接口 标志 时 ， 都 使 用 了 下。 
后 端 必须 定义 和 初始 化 bindings, bindings 包括 名 字 和 接口 记录 。 例 如 ， 本 书 的 后 端 在 bind.c 
中 定义 了 下 列 bindlings: 
(bind.c72)= 
#include "c.h" 
extern Interface nullIR, Symbol1icIR; 


extern Interface mipsebIR, mipselIR; 
extern Interface sparcIR, solarisIR; 
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extern Interface x86IR; 
Binding bindings[] = { 


"symbolic", &symbolicIR, 
"mips-irix", &mipsebIR, 
“mips-ultrix”,  &mipselIR, 
“sparc-sun", &sparcIR， 
"sparc-solaris"，&solarisIR， 
"x86-dos", &x86IR, 
"null", &nullIR, 
NULL, NULL 


$; 


MIPS, SPARC 和 X86 接口 分 别 在 第 16 章 、 第 17 章 和 第 18 章 中 介绍 。null 和 symbolic 接 
口 在 练习 5.1 和 练习 5.2 中 介绍 5 


5.12 上行 调 用 

前 端 和 后 端 互 为 客户 端 。 前 端 调用 后 端 以 执行 代码 生成 和 发 送 。 后 端 调用 前 端 完 成 输出 、 分 
配 存储 空间 、 查 询 类 型 以 及 管理 节点 、 符 号 和 串 。 下 面 对 后 端 可 能 调用 的 前 端 函数 进行 总 结 ， 尽 
管 其 中 一 些 函 数 在 前 面 的 章节 中 已 经 解释 过 ; 但 仍 包含 在 本 节 中 ， 使 得 总 结 比较 完整 。 

void *allocate(int n, int a) 在 分 配 区 a 中 分 配 了 n 个 字 节 ，a 可 以 是 下 面 定 义 的 枚 举 值 之 一 : 

(c.h exported types)+= é 

enum { PERM=0, FUNC, STMT }; 

allocate 返回 一 个 指向 所 分 配 空间 的 第 1 个 字 节 的 指针 ,保证 所 分 配 空间 的 对 齐 方式 适用 于 机 器 
的 大 多 数 所 需 类 型 。 在 PERM 分 配 区 中 分 配 的 数据 在 编译 结束 时 释放 ， 在 FUNC 和 STMT 分 配 
区 中 分 配 的 数据 在 函数 和 语句 编译 结束 后 立即 释放 。 


(input.c exported data)= 78 
extern char *bp; 
bp 指向 输出 缓冲 区 的 下 一 个 字符 。 语 句 *bp++=c 将 c 附加 到 输出 缓冲 区 (参见 1.5 节 的 outs K 
数 )。 每 80 个 字符 至 少 调用 一 次 下 面 的 输出 函数 之 一 。 
(output.c exported functions) += 714 
extern void fprint ARGS((int fd, char *fmt, ...)); = 
该 函数 将 第 3 个 及 其 后 的 参数 输出 到 文件 描述 符 乌 指定 的 文件 中 。 格 式 的 详细 信息 参见 print。 
如 果 fd 不 等 于 1 (标准 输出 )，fprint 调用 outflush 将 输出 缓冲 区 内 容 输出 到 fdo 
如 果 ty 的 类 型 是 函数 ， 函 数 Type freturn(Type ty) 得 到 函数 类 型 ty 的 返回 值 类 型 。 
(c.h exported macros) += b y 
#define generic(op) ((op)&~15) 
宏 generic 是 类 型 相关 的 dag 操作 符 op 的 一 般 表 示 ， 即 表达 式 generic(op) 返回 不 含 类 型 后 缀 
的 op。 
int genlabel(int n) 将 生成 的 标识 符 的 计数 器 加 n， 并 返回 计数 器 原来 的 值 。 
int istype(Type ty) 是 类 型 断言 ， 如 果 类 型 ty 属于 下 表 的 类 型 之 一 ，istype 返回 非 零 值 。 


er ee REE, 


断言 类 型 
isarith 算术 
isarray 阵列 
ischar 字符 
isdouble 双 精 度 
isenum PCE 
isfloat 浮 点 
isfunc 功能 
isint 整数 
isptr 指针 
isscalar 标量 
isstruct 结构 或 联合 
isunion 联合 
isunsigned 无 符号 


函数 Node newnode(int op, Nodel, Noder, Symbol sym) 分 配 新 的 dag 节点 ， 将 节点 的 op 域 
初始 化 为 op，kids[0] 初始 化 为 1，kids[1] 初始 化 为 r，syms[0] 初始 化 为 sym， 并 且 返 回 指向 新 节 
点 的 指针 。 

Symbol newconst(Value v, int b 在 符号 表 中 创建 一 个 常量 ， 常 量 值 为 v， 类 型 后 缀 为 t， 如 果 
和 需要， 返回 指向 符号 表 入 口 的 指针 。 

Symbol newtemp(int sclass, int t) 创建 一 个 临时 变量 ， 该 临时 变量 的 存储 类 别 为 sclass， 类 型 
后 级 为 t， 返回 指向 该 变量 的 符号 表 入 口 的 指针 。 新 的 临时 变量 通过 调用 local 宣告 。 

opindex(op) 得 到 操作 符 的 编号 ， 对 操作 符 op: 


(c.h exported macros) += E y 
#define opindex(op) ((op)>>4) 


opindex 用 于 将 通用 操作 符 映射 到 一 个 连续 范围 内 的 整数 。 


(c.h exported macros) += 74 
#define optype(op) ((op)&15) 
是 dag 操作 符 op 的 类 型 后 级 。 
(output.c exported functions) += BY 


extern void outflush ARGS((void)); 


如 果 当 前 输出 缓冲 区 不 为 空 ， 该 函数 将 输出 缓冲 区 的 内 容 写 人 标准 输出 。 

void outs(char *s) 将 字符 串 s 附加 到 标准 输出 的 输出 缓冲 区 中 ， 如 果 导 致 缓冲 区 指针 指向 了 
缓冲 区 末尾 的 80 个 字符 内 ， 则 调用 outflush, 

void print(char *fmt,…) 将 第 2 个 及 随后 的 参数 打印 到 标准 输出 。print 类 似 于 printf， 但 只 支 
持 格 式 %c、%d、%o、%x 和 %s， 省 略 了 精度 和 域 宽 说 明 。print 支持 4 种 lee 特定 的 格式 代码 。%s 
打印 指定 长 度 的 串 , 第 2 个 和 第 3 个 参数 分 别 给 出 串 和 串 的 长 度 。%k 打印 相应 参数 给 出 的 整数 
单词 编码 的 英文 翻译 ，%t 打印 类 型 的 英文 翻译 。%w 打印 相应 的 参数 给 出 的 源 坐 标 ( 即 在 源 文件 
的 行列 号 )， 此 时 参数 应 是 指向 Coordinate 的 指针 。 如 果 print 打印 来 自 fmt 的 换行 符 ， 到 达 输 出 
缓冲 区 未 尾 的 80 个 字符 以 内 ， 那 么 print 将 调用 outttush。 除 Yc 外 的 每 种 格式 都 使 用 outs 作为 
实际 输出 ， 使 缓冲 区 排 空 。 
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int roundup (int n,intm) 增 大 n， 得 到 与 n 接近 的 下 一 个 m 的 整数 倍 ， 其 中 m 必须 是 2 的 需 。 

char *string (char *s) 在 字符 串 表 中 创建 s， 如 果 需 要 ,返回 指向 创建 的 副本 的 指针 。 

char *stringd (intn) 返回 n 的 字符 串 表 示 ， 并 且 在 字符 串 表 中 创建 该 串 并 将 其 返回 。 

(output.c exported functions) += 74 

extern char *stringf ARGS((char *, ...)); 

将 参数 格式 化 为 字符 串 ， 并 将 字符 串 加 入 字符 串 表 中 ,返回 指向 该 字符 串 的 指针 。 格 式 信 息 参见 
print. 

int ttob(Type ty) 返回 类 型 ty 的 类 型 后 级 。 

当 类 型 ty 表示 一 个 变 参 函数 时 ，int variadic(Type ty) 返回 真 。 
深入 阅读 

Fraser and Hanson ( 1991a、1992 ) 介绍 了 lec 代码 生成 接口 的 早期 版 本 。 本 章 基 于 1lcc 3.1 及 
以 上 版 本 ， 对 loo 代码 生成 接口 做 了 更 详细 的 介绍 。 

一 些 编译 器 的 接口 产生 抽象 机 代码 (abstract machine code)， 一 种 类 似 于 假想 的 机 器 的 汇编 代 
码 (Tanenbaum, van Staveren and Stevenson，1982 )。 前 端 产生 抽象 机 代码 ， 后 端 读 入 抽象 机 代 
码 并 将 其 转换 为 目标 机 器 的 代码 。 抽 象 机 使 前 端 和 后 端 分 离 ， 使 优化 遍 的 插入 变 得 容易 ， 但 是 额 
外 的 WO、 结构 分 配 和 初始 化 需要 消耗 时 间 。lce 紧密 结合 的 接口 使 编译 器 高 效 并 紧凑 ， 但 是 由 于 
前 端的 修改 可 能 影响 后 端 ， 使 lce 的 维护 变 得 复杂 。 对 标准 语言 来 说 (如 ANSI C)， 由 于 语言 本 
身 改变 不 会 太 大 ， 因 此 维护 的 复杂 性 并 不 十 分 重要 。 


练习 


5.1 如 果 代 码 生 成 器 的 接口 记录 所 指向 的 函数 实际 上 不 做 任何 操作 ，lec 可 以 仅 作为 语法 和 语义 检查 器 。 实 
现 这 种 空 代 码 生 成 器 。 
52 实现 一 个 符号 后 端 ， 生 成 接口 函数 的 调用 轨迹 ， 并 以 可 读 的 方式 表示 参数 。 例 如 loo 的 符号 后 端 为 : 


int ty pO a= spre; } 
生成 的 输出 为 : 


export f 

segment text 

function f type=int function(void) class=auto ... 
maxoffset=0 

node#2 ADDRGP count=2 p 

node'l INDIRP count=2 #2 

node#5 CNSTI count=1 4 

node#4 ADDP count=1 #1 #5 

node'3 ASGNP count=0 #2 #4 4 4 

node#7 ADDRGP count=1 i 

node#8 INDIRI count=1 #1 

node'6 ASGNI count=0 #7 #8 4 4 

1: 

end f 

segment bss 

export p 

global p type=pointer to int class=auto ... 


5:3 


54 


5.5 
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space 4 

export i 

global i type=int class=auto scope=GLOBAL ref=1000 

Space 4 

后 端的 所 有 接口 例 程 都 显示 参数 信息 ， 其 中 一 些 还 可 以 提供 其 他 信息 。 例 如 ，function 计算 帧 的 大 小 ， 
会 打印 maxoffset 的 值 (如 上 例 所 示 )。 同 样 从 上 例 中 可 以 看 到 ，gen 和 emit 合作 打印 dag, gen 为 每 个 
森林 节点 编号 ， 注 释 节点 的 x 域 ，emit 打印 节点 操作 数 的 节点 号 。 例 如 第 一 个 森林 中 的 节点 1、3 和 6， 
emit 可 以 在 节点 号 前 加 入 重音 符 “、 来 标识 根 。 对 于 LABELYV 节点 ，emit 只 打印 标号 和 一 个 冒号 。 
比较 这 种 输出 和 5.10 节 的 线性 表示 。 

编写 一 个 代码 产生 器 ， 简 化 所 有 对 其 他 模块 可 见 的 标识 符 的 名 字 的 发 送 过 程 ， 并 报告 未 被 使 用 的 输入 
名 字 。 

在 设计 lce 接口 时 ，32 位 整数 是 标准 ， 因 此 使 整数 和 长 整数 共享 同一 类 型 度量 没有 任何 损失 。 现 在 ， 许 
多 机 器 支持 32 位 和 64 位 整数 ， 若 在 同一 代码 产生 器 中 使 用 这 两 种 类 型 ，lcc 选取 的 捷径 反而 使 情况 复 
杂 了 。 如 何 加 入 两 个 新 的 类 型 后 级 L 和 OO， 其 中 长 整数 使 用 工 ， 无 符号 长 整数 使 用 O， 从 而 改变 lce He 
口 呢 ? 考虑 对 类 型 度量 、 通 用 节点 操作 符 ， 尤 其 是 转换 操作 的 影响 ， 重 画图 5-1。 哪 些 接口 函数 需要 修 
改 ， 如 何 修改 ? 

设计 一 个 与 ce 接口 一 致 的 抽象 机 ， 并 用 它 来 分 离 lcc 的 前 端 和 后 端 。 编 写 一 个 代码 产生 器 为 该 抽象 机 
器 输出 代码 。 修 改 leo 后 端 读 取 抽象 机 器 代码 ， 重 建 后 端 需要 使 用 的 数据 结构 ， 调 用 已 有 后 端 生成 代 
码 。 这 一 过 程 可 能 需要 花费 一 个 月 左右 的 时 间 ， 但 在 读 取 抽 象 机 代码 、 优 化 抽象 机 代码 并 将 它 输出 给 
后 端 等 方面 所 具有 的 灵活 性 ， 可 以 简化 后 面 的 优化 实验 。 
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词法 分 析 器 读 入 源 程序 ， 产 生 语 言 的 基本 词法 单元 一 一 单词 (token)。 例 如 ， 表 达 式 *ptr=56; 
包含 10 个 字符 或 5 个 单词 : *、ptr、=、56、; 。 词 法 分 析 器 返回 每 个 单词 的 单词 编码 、0 个 或 多 
个 附加 值 (associated value)。 单 字符 单词 (如 操作 符 和 分 隔 符 ) 的 单词 编码 就 是 字符 本 身 。 包 含 
一 个 或 多 个 字符 的 单词 ， 如 标识 符 和 常量 ， 使 用 预定 义 的 常量 作为 单词 编码 ， 预 定义 的 常量 值 和 
有 效 字符 的 数值 (numeric value) 不 能 冲突 。 

例如 ,语句 *prt=56; 产生 下 面 一 组 单词 : 左边 一 列 是 单词 编码 ， 如 果 单 词 有 附加 值 ， 则 在 右 
列 显 示 。 


单词 编码 附加 值 
ID "ptr" "ptr" 对 应 的 符号 表 人 口 
ICON "56" 56 对 应 的 符号 表 入 口 


操作 符 * 和 = 的 单词 编码 是 操作 符 本 身 ， 分 别 是 * 和 = 的 数值 ， 没 有 附加 值 。 标 识 符 ptr 的 单词 
编码 是 预定 义 常量 ID 的 值 ， 附 加 值 是 标识 符 串 本 身 的 保留 副本 ， 即 stringn 函数 返回 的 串 以 及 该 
标识 符 的 符号 表 入 口 。 同 样 ， 整 型 常量 56 返回 ICON， 附 加 值 是 串 "56" 和 整 型 常量 56 的 符号 表 
As 

关键 字 CAN “for” ) 都 单独 编码 ， 以 将 它们 与 标识 符 区 分 开 来 。 

词法 分 析 器 跟踪 每 个 单词 的 源 坐 标 ， 这 些 坐 标 (参见 3.1 节 的 定义 ) 给 出 了 文件 名 、 行 号 和 
单词 的 第 一 个 字符 在 该 行 中 的 位 置 。 坐 标 用 于 标记 发 生 错误 的 位 置 及 记录 符号 的 定义 点 。 

词法 分 析 器 只 是 编译 器 的 一 部 分 ， 负 责 分 解 源 程序 的 字符 。 词 法 分 析 器 的 执行 时 间 通 常 不 能 
超过 编译 器 总 的 执行 时 间 的 一 半 ， 因 此 ， 速 度 非 常 重要 。 词 法 分 析 器 的 主要 操作 是 移动 字符 ， 尽 
量 减少 字符 移动 的 数量 有 助 于 提高 速度 。 这 可 以 通过 将 词法 分 析 器 划分 为 紧密 结合 的 两 个 模块 获 
得 ,一 个 是 输入 模块 input.c， 以 大 块 的 方式 将 输入 读 入 缓冲 区 ; 另 一 个 是 识别 模块 lex.c， 检 查 字 
符 识 别 单词 。 


6.1 输入 

在 大 多 数 程序 设计 语言 中 ， 以 行 的 形式 组 织 输入 。 尽 管 在 原理 上 对 行 的 长 度 很 少 进行 限制 ， 
但 是 实际 上 行 的 长 度 是 有 限 的 。 另 外 , 在 大 多 数 语言 中 ， 单 词 不 能 跨行 。 因 而 ， 在 检查 某 行 时 ， 
如 果 能 保证 完整 的 一 行 都 在 内 存 中 ， 就 可 以 用 很 小 的 性 能 代价 达到 简化 词法 分 析 的 目的 。 在 C 语 
言 中 ， 字 符 串 文字 是 一 个 例外 ， 可 作为 特例 处 理 。 

输入 模块 以 大 块 方 式 读 入 源 程序 ， 块 的 大 小 通常 超过 单独 的 一 行 ， 这 有 助 于 在 检查 单词 时 ， 
除 标 识 符 和 字符 串 文字 外 ， 完 整 的 单词 都 在 输入 缓冲 区 中 。 为 了 使 访问 输入 的 开销 最 小 ， 输 入 模 
块 可 以 输出 允许 直接 访问 输入 缓冲 区 的 指针 : 
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(input.c exported data) += 分 Y 
extern unsigned char *cp; 
extern unsigned char *limit; 


cp 指向 当前 的 输入 字符 ，*cp 就 是 当前 字符 。limit 指向 输入 缓冲 区 的 末尾 字符 的 后 一 个 字符 ， 
*limit 总 是 换行 符 ( newline character)， 作 为 标记 。 这 些 指针 都 引用 无 符号 字符 ， 例 如 *cp 不 能 对 
一 个 值 大 于 127 的 字符 进行 符号 扩展 。 

这 种 设计 最 重要 的 结果 是 大 多 数 输入 字符 通过 *cp 访问 ， 并 且 许 多 字符 从 不 用 移动 。 只 有 出 
现在 可 执行 代码 中 的 标识 符 (除了 关键 字 ) 和 字符 串 文字 才 从 缓冲 区 复制 到 永久 的 存储 区 。 只 有 
在 行 的 边界 处 才 需 要 调用 函数 ， 与 输入 的 字符 数 相 比较 ， 这 种 调用 很 少 发 生 。 尤 其 是 词法 分 析 器 
可 以 使 用 *cp++ 读 入 一 个 字符 并 使 cp 加 1。 如 果 *cp++ 是 一 个 换行 符 ， 则 必须 调用 nextline pk 
数 ， 重 置 cp 和 1limit。 在 调用 nextline 后 ， 如 果 cp 等 于 limit, 则 表明 已 经 读 到 文件 尾 。 

由 于 *limit 总 是 换行 符 ， 并 且 在 读 到 一 个 换行 符 后， 必须 调用 nextline 函数 ， 因 此 对 词法 分 
析 器 来 说 ， 很 少 需要 检查 cp 是 否 小 于 limit。 当 读 到 的 换行 符 就 是 limit 指向 的 换行 符 时 ，nextline 
调用 fillbuf 函数 。 词 法 分 析 器 也 可 以 显 式 地 调用 flbuf， 例 如 在 它 想 要 确保 一 个 完整 的 单词 在 绥 
冲 区 中 时 。 大 多 数 单词 较 短 ， 少 于 32 个 字符 ， 因 此 当 limit-cp 小 于 32 时 ， 词 法 分 析 器 就 可 以 调 
用 fillbuf。 

这 种 协议 保证 了 fillbuf 函数 能 够 正确 处 理 跨 输入 缓冲 区 的 行 。 通 常 ， 每 个 输入 缓冲 区 的 结尾 
只 包含 某 行 的 一 部 分 (limit-cp 个 字符 )。 为 了 使 行 看 上 去 是 连续 的 ,减少 不 必要 的 搜索 ，fillbuf 
将 这 部 分 limit-cp 个 字符 移动 到 输入 缓冲 区 的 尚未 处 理 的 字符 之 前 的 存储 空间 ， 这 样 当 输入 缓冲 
区 重 填 时 ， 移 动 的 字符 可 以 与 行 的 尾部 字符 连接 。 我 们 可 以 用 一 个 例子 来 表述 这 一 过 程 ， 假 设 输 
入 缓冲 区 的 状态 如 下 : 





[| An: 
cet 
cp limit 


阴影 部 分 表示 尚未 处 理 的 字符 ，\n 表示 换行 。 如 果 调 用 fllbuf， 该 函数 移动 输入 缓冲 区 中 尚未 处 
理 的 尾部 并 重新 填 满 缓冲 区 。 缓 冲 区 的 结果 状态 如 下 : 


En 
cp limit 


深 色 阴 影 表 示 新 读 人 的 字符 ， 浅 色 阴 影 表 示 被 flibuf 移动 的 字符 。 当 调用 fillbuf, BART AA 
时 ， 绥 冲 区 状态 变 为 : 


cp limit 


最 后 ， 当 读 到 最 后 一 个 *limit 标记 ， 调 用 nextline HY}, fillbuf 将 cp 和 limit 置 为 相同 ， 标 志文 件 的 
结束 (在 第 一 次 调用 nextline 之 后 )。 缓 冲 区 的 最 终 状 态 为 : 
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input.c 输出 的 其 余 的 全 局 变量 包括 : 


(input.c exported data) += 8 
extern int infd; 
extern char *firstfile; 
extern char *file; 
extern char *line; 
extern int lineno; 


infd 表示 输入 模块 读 和 的 源 文件 的 文件 描述 符 ， 默 认 值 是 0， 表示 标准 输入 。file 是 当前 输入 的 
文件 名 ; 如 果 文 件 被 送 到 缓冲 区 ，line 给 出 当前 行 的 起 始 位 置 ; lineno 表示 当前 行 的 行 号 。 这 样 ， 
以 cp 开始 的 单词 的 坐标 (f，x，y)， 其 中 f 是 文件 名 ，3 个 参数 分 别 由 file, cp-line, lineno 给 出 ， 
每 行 中 的 字符 从 0 开始 计数 。line 仅 用 于 计算 x 坐标 tab 作为 一 个 字符 计数 )。firstfile 给 出 输入 
的 第 一 个 源 文件 名 ， 用 于 输出 错误 消息 。 
输入 缓冲 区 局 部 于 输入 模块 : 
(input.c exported macros)= 


#define MAXLINE 512 
#define BUFSIZE 4096 


(input.c data) = 
static int bsize; 
static unsigned char buffer [MAXLINE+1 + BUFSIZE+1]; 


BUFSIZE 是 输入 缓冲 区 的 大 小 ， 输 入 缓冲 区 存放 读 和 的 字符 ，MAXLINE 表示 在 输入 缓冲 区 中 尚 
未 处 理 的 尾部 可 包含 的 最 大 字符 数 。 如 果 limit-cp 大 于 MAXLINE， 不 会 调用 flbuf 函数 。 尽 管 
C 标准 指出 编译 器 不 必 处 理 超过 509 个 字符 的 行 ， 但 是 lee 可 以 处 理 任意 长 度 的 行 ， 只 是 要 求 标 
识 符 和 字符 串 文字 的 长 度 不 能 超过 512 个 字符 。 

bsize 值 的 编码 代表 了 3 种 不 同 的 输入 状态 : 如 果 bsize 小 于 0， 表示 没有 任何 字符 被 读 人 ， 
遇 到 了 读 入 错误 ;如 果 bsize 等 于 0， 表示 到 达 输 入 末尾 ; 如 果 bsize 大 于 0, RABAT bsize 个 
字符 。 这 一 相对 复杂 的 编码 保证 lcc 可 以 被 正确 地 初始 化 ;而 且 读 操作 不 会 超过 输入 的 末尾 。 

inputlnit 函数 初始 化 输入 变量 并 填充 输入 缓冲 区 : 


(input.c functions)= 79 
void inputInit() { 
limit = cp = &buffer[MAXLINE+1]; 
bsize = -1; 
lineno = 0; 
file = NULL; 
(refill buffer 80 ) 
nextlineQ; 


} i 
4 *cp++ 读 到 换行 符 时 ， 调 用 nextline 函数 。 如 果 cp 大 于 或 等 于 limit， 输 入 缓冲 区 为 空 。 


(input.c functions) += 30 
void nextlineQ) { X 
do { 
if (cp >= limit) { 
(refill buffer 80 ) 
if (cp == limit) 
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return; 
} else 
Tineno++; 
for Cline = (char *)cp; *cp==" ' || *cp=="\t'; cp++) 


} while (*cp == '\n' && cp == limit); 
if Gcp == "#") { 
resynch(); 
nextlineQ; 
} 
} 


如 果 在 填充 缓冲 区 后 cp 仍 等 于 limit， 则 说 明 已 经 到 达 文 件 尾 。do-wlule 循环 使 cp 指向 行 中 第 一 
个 非 空 白字 符 ， 换 行 标记 作为 空白 看 待 。nextline 函数 的 最 后 4 行 代码 检查 预 处 理 器 产生 的 重 同 
步 (resynchronization) 指导 命令 ， 参 见 练习 6.2。inputInnit 和 nextline 函数 都 调用 fillbuf 函数 填充 
输入 缓冲 区 : 


(refill buffer go ) 三 79 
fillbufQ; 
if (cp >= limit) 
cp = limit; 


如 果 没 有 新 的 输入 ， 当 filbuf 返 回 时 ，cp 仍然 大 于 或 等 于 limit， 各 变量 的 状态 如 前 面 ( 见 第 78 
页 ) 最 后 一 幅 图 所 示 。fllbuf 函数 完成 所 有 的 缓冲 区 管理 和 实际 的 输入 操作 : 


(input.c functions) += 分 
void fillbuf() { 
if (bsize == 0) 
return; 
if (cp >= limit) 
cp = &buffer [MAXLINE+1]; 
else 
{move the tail portion 80) 
bsize = read(infd, &buffer[MAXLINE+1], BUFSIZE); 
if (bsize < 0) { 
error("read error\n"); 
exit(1); 


} 
limit = &buffer[MAXLINE+1+bsize]; 
*limit = '\n'; 
} 
fillbuf iA BUFSIZE (实际 可 能 少 于 BUFSIZE) 个 字符 到 缓冲 区 的 MAXLINE+1 以 后 的 空间 ， 重 
置 limit， 存 储 换行 标记 。 如 果 调 用 fillbuf 时 输入 缓冲 区 为 空 , cp 指向 读 入 的 第 一 个 新 字符 ; 否则 ， 
移动 缓冲 区 尾部 limit-cp 个 字符 ， 使 尾部 最 后 一 个 字符 放 在 buffer[MAXLINE] 中 ， 后 面 接着 是 新 
读 入 的 字符 。 
(move the tail portion 80 ) 三 80 
{ 
int n = limit - cp; 
unsigned char *s = &buffer[MAXLINE+1] - n; 
line = (char *)s - ((char *)cp - line); 
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while (cp < limit) 
*St+ = *Cpt++; 
cp = &buffer[MAXLINE+1) - n; 
} 


注意 line 的 计算 : 由 于 line 考虑 了 当前 行 中 已 被 处 理 的 部 分 ， 所 以 cp-line 给 出 了 字符 *cp 正确 的 
索引 。 


6.2 单词 的 识别 


单词 的 识别 有 两 个 主要 技术 : 创建 一 个 有 限 自动 机 (finite automaton) 或 手工 编写 一 个 专门 
的 识别 器 = 大 多 数 程序 设计 语言 的 词法 结构 可 以 由 正则 表达 式 (regular expression) 描述 ， 利 用 正 
则 表达 式 可 以 构建 一 个 确定 的 有 限 自 动机 (deterministic finite automaton) 来 识别 及 返回 单词 符号 。 
这 种 方法 的 优点 在 于 它 的 自动 化 。 例 如 ， 程序 LEX 就 使 用 了 词法 规则 的 正则 表达 式 ， 生 成 一 个 
自动 机 和 相应 的 解释 程序 。 

大 多 数 语言 的 词法 结构 相当 简洁 ， 可 以 很 容易 地 手工 构造 词法 分 析 器 。 另 外 ， 自 动 生成 的 分 
析 器 ， 如 LEX 生成 的 分 析 器 ， 比 手工 创建 的 分 析 器 规模 更 庞大 ， 速 度 更 慢 。 但 是 诸如 LEX 的 自 
动工 具 ， 对 那些 临时 性 的 程序 和 具有 复杂 词法 结构 的 应 用 非常 有 用 。 

例如 C 语言 中 单词 分 为 6 类 ，EBNF 文法 定义 分 别 为 : 


token: 

keyword 

identifier 

constant 

string-literal 

operator 

punctuator 

punctuator: 

one of Eel CN Side Bao on 


空 自 包括 空格 、 制 表 符 、 换 行 和 注释 ， 起 到 分 隔 单词 的 作用 ， 例 如 分 隔 相 邻 的 标识 符 。 除 了 出 现 
在 字符 串 文字 中 外 ， 其 余地 方 出 现 的 空白 都 被 忽略 。 

词法 分 析 器 输出 2 个 函数 和 4 个 变量 : 

(lex.c exported functions)= 


extern int getchr ARGS((void)); 
extern int gettok ARGS((void)); 


(lex.c exported data)= 
extern int t; 
extern char *token; 
extern Symbol tsym; 
extern Coordinate src; 


gettok 函数 返回 下 一 个 单词 。getchr 函数 返回 下 一 个 待 处 理 的 非 空白 字符 。gettok 返回 的 值 可 以 是 
字符 本 身 (对 于 单字 符 单词 )， 或 是 枚 举 常 量 (对 于 关键 字 ， 如 正 )， aaar | la 
定义 常量 : 


82 

ID 标识 符 

FCON 浮 点 常量 

ICON 整 型 常量 

SCON 字符 串 常量 

INCR TF 

DECR g = 

DEREF -> 

ANDAND && 

OROR | 

LEQ g= 

EQL =< 

NEQ l= 

GEQ >= 

RSHIFT >> 

LSHIFT << 

ELLIPSIS s 

EOI 输入 结束 

这 些 常 量 通过 以 下 方式 定义 : 

(lex.c exported types)= 
enum { 

#define xx(a,b,c,d,e,f,g) a=b, 
#define yy(a,b,c,d,e,f,g) 
#include “token.h” 

LAST 
}; 

文件 token.h 共有 256 行 ， 每 行 的 形式 如 下 : 

(token.h 82 )= 82 
yy(0, 0,0, O, 0, 0, 0) 
xx(FLOAT, Ag “Os. 720), 0, CHAR, "float") 
xx (DOUBLE, Bios eee 0, CHAR, “double") 
xx(CHAR, 32,0520; 0, CHAR, “char") 
xxCSHORT, 4. On ° 0, CHAR, “short") 
xx(CINT, 5; 6. 10; oO, CHAR, “int") 
xx(UNSIGNED, 6, 0, 0, 0, CHAR, "unsigned”) 
xx(POINTER, Zev Oy HO, 0, 0, 0) 
xx(VOID, &,.,,0 .0, 0, CHAR, "void") 
xx(STRUCT, 9; 9, 0, 0, CHAR, "struct") 
xx (UNION, 10305770. Bi CHAR, “union") 
xx(FUNCTION, 11, 0, 0, 0, 0, 0) 
xx(ARRAY, t2 0 0, 0, 0, 0) 

xx (ENUM, Ese ) 0 0, CHAR, "enum") 
xx(LONG, 14, 0, 0, 0, CHAR, “long") 
xx(CONST, 15, O62 04 0, CHAR, "const") 
xx(VOLATILE, 16, 0, 0， 0, CHAR, “volatile") 


{token.h 82 )+= l 82 
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yy(0, 42, 13, MUL, multree,ID, ARD 
yy(0, 43, 12, ADD, addtree,ID, "+") 
yy(0, 44,1, Os 0, ear ee, 
yy(o, 45, 12, SUB, subtree,ID, "n 

yy(0, 400 0 1.0; Ea ih 

yy(o, 47, 13, DIV, multree,'/', rey 
xx(DECR, 48, 0, SUB, subtree,ID, waa) 
xx(DEREF , 49, O, 0, 0, DEREF “->") 
xx (ANDAND , 50, 5, AND, andtree,ANDAND, "&&") 
xx(OROR, 51, 4, OR, andtree,OROR, 全 
xx (LEQ, 52; 110;)2E, cmptree,LEQ, "<=") 


token.h 使 用 宏 收集 每 个 单词 或 符号 常量 的 信息 。token.h 的 每 行 中 ， 单 词 的 7 个 有 用 信息 作为 xx 
或 yy 的 参数 。 单 词 编码 由 第 2 列 的 值 给 出 。 在 定义 符号 时 读 入 token.h， 以 单词 为 下 标 创建 数组 ， 
保证 定义 的 一 致 性 。 这 种 技术 在 汇编 程序 设计 中 非常 普遍 。 

yy 行 处 理 单字 符 单词 ，xx 行 处 理 多 字符 单词 和 其 他 定义 。xx 的 第 1 列 是 枚 举 标 识 符 。 其 他 
列 分 别 表示 标识 符 或 字符 值 、 单 词 操作 符 的 优先 次 序 (参见 8.3 节 )、 通 用 操作 符 (参见 5.5 节 )、 
创建 树 的 函数 (参见 9.4 节 )、 单 词 的 集合 (参见 7.6 节 ) 以 及 字符 串 表 示 。 

通过 重新 定义 宕 xx 和 yy 以 及 包含 token.b 文件 ， 就 可 以 根据 不 同 的 目的 抽取 不 同 的 列 。 上 
述 枚 举 定义 展现 了 这 种 技术 。 在 枚 举 定义 中 ， 通 过 定义 宏 xx， 每 个 宏 展开 就 定义 一 个 枚 举 成 员 。 
例如 ;xx 行将 DECR 扩展 为 : 


DECR=48, 


这 样 ， 就 将 DECR 定义 成 值 为 48 的 枚 举 常量 。yy 的 定义 为 空 ， 这 种 定义 可 以 高 效 地 忽略 yy 行 。 
通常 使 用 全 局 变量 t 保 存 当 前 单词 ， 因 此 大 多 数 对 gettok 的 调用 都 使 用 : 


t = gettok(); 


变量 token, tsym 和 sre 保存 与 当前 单词 相关 的 值 。 其 中 ，token 是 单词 自身 的 原文 本 ; tsym 为 某 
些 单词 存放 Symbol， 例 如 标识 符 和 常量; src 表示 当前 单词 在 源 程序 中 的 坐标 。 

也 可 以 让 gettok 返回 一 个 包含 单词 编码 和 附加 值 的 结构 ， 或 者 返回 一 个 指向 该 结构 的 指针 。 
但 是 由 于 大 多 数 调用 只 是 检查 单词 编码 ， 因 此 将 这 些 值 封装 在 一 起 并 不 能 明显 地 提高 性 能 ， 所 以 
lce 中 gettok 只 返回 单词 编码 ， 用 全 局 变量 token, tsym 和 sre 存放 其 他 相关 值 。 另 外 ，gettok 是 
loc 编译 器 最 常 调 用 的 函数 ， 简 单 的 接口 可 以 增加 代码 的 可 读 性 。 

一 般 可 以 通过 单词 的 第 一 个 字符 将 单词 分 类 ， 加 上 随后 的 字符 形成 完整 的 单词 。gettok 函数 
通过 第 一 个 字符 识别 单词 。 对 某 些 单词 而 言 ， 这 些 字符 可 以 由 一 个 或 多 个 通过 map 定义 的 集合 给 
出 。 掩 码 map[c] 可 以 将 字符 c 归 为 下 面 6 种 集合 中 的 一 个 或 多 个 : 

(lex.c types) = 


enum { BLANK=01, NEWLINE=02, LETTER=04, 
DIGIT=010, HEX=020, OTHER=040 }; 


(lex.c data) = 89 
static unsigned char map[256] = { (map initializer) }; 
如 果 是 一 个 非 换行 符 的 空白 字符 ， 则 map[cl]&BLANK 非 零 。 换 行 符 被 排除 在 外 是 由 于 换行 符 
可 能 导致 gettok 调用 nextline 函数 。 其 他 枚 举 值 表示 其 他 字符 子 集 : NEWLINE 是 只 包含 换行 符 
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WEE, LETTER 是 包含 大 写 和 小 写字 母 的 集合 ，DIGIT 是 包含 数字 0 ~ 9 的 集合 ，HEX 是 包含 
数字 0 ~ 9、a ~ f 和 A ~ FARA, OTHER 是 包含 标准 允许 的 、 出 现在 源 程序 和 执行 字符 集 的 
其 他 ASCI 字符 。 如 果 map[c] 为 零 ， 则 不 能 保证 字符 c 能 被 所 有 ANSI C 编译 器 接受 ， 例 如 $、 
@ 和 '。 

gettok 是 一 个 相当 大 的 函数 ， 但 是 使 用 switch 语句 根据 单词 的 第 一 个 字符 进行 分 别处 理 ， 可 
以 将 gettok 的 代码 划分 为 若干 易 处 理 的 片段 : 


(Jex.c macros) = 
#define MAXTOKEN 32 


(lex.c functions) = 89 
int gettok() { 
Tor GT 
register unsigned char *rcp = cp; 
(skip white space 84 ) 
if (limit - rcp < MAXTOKEN) { 
cp = rcp; 
fillbufQ; 
rcp = cp; 


src.file = file; 
src.x = (char *)rcp - line; 
src.y = lineno; 
cp = rcp + 1; 
switch (*rcp++) { 
(gettok cases 85 ) 
default: 
if ((map[cp[-1]]&BLANK) == 0) 
(illegal character) 
} 
} 


} 
gettok 首先 忽略 空白 字符 ,然后 检查 输入 缓冲 区 中 是 否 至 少 包含 一 个 单词 。 如 果 没 有 ， 则 调用 
fillbuf 补充 缓冲 区 ， 保 证 其 中 至 少 包含 一 个 单词 。 除 标识 符 、 字 符 串 和 数字 常量 外 ， 其 他 所 有 单 
词 的 长 度 不 超过 MAXTOKEN。 超 过 MAXTOKEN 的 单词 由 为 这 些 单词 专门 设计 的 代码 显 式 处 
HE, ANSI 标准 允许 编译 器 限制 字符 串 长 度 小 于 509， 标 识 符 少 于 31 个 字符 。lce 放松 了 这 些 限 制 ， 
字符 串 和 标识 符 长 度 分 别 可 以 达到 4096 (BUFSIZE) 和 512 (MAXLINE)， 满 足 那些 自动 生成 C 
程序 的 程序 的 需要 ， 因 为 这 些 自动 生成 的 C 程序 可 能 包含 很 长 的 标识 符 。 
gettok 没有 像 6.1 节 建 议 的 那样 使 用 cp， 而 是 在 函数 入 口 处 将 cp 复制 到 一 个 寄存 器 变量 rcp， 
在 单词 识别 过 程 中 使 用 变量 rrp。 在 函数 返回 前 以 及 调用 nextline 和 fllbuf 之 前 ， 将 rcp 复制 回 
cp. (EFA rep 可 以 提高 程序 性 能 ， 使 扫描 循环 更 紧凑 和 快速 。 例 如 ， 省 略 空白 的 代码 为 ， 
(SKip white space 84 ) 三 84 
while (map[*rcp]&BLANK) 
rcp++; 
使 用 寄存 器 变量 作为 map 的 下 标 ， 可 以 生成 更 高 效 的 代码 。 这 些 类 型 的 扫描 检查 输入 的 每 一 个 字 
符 , 通过 直接 访问 输入 缓冲 区 检查 字符 。 一 些 优化 编译 器 能 够 做 类 似 的 局 部 改进 ， 但 不 会 超过 潜 
在 的 别名 赋值 以 及 调用 其 他 不 相关 的 函数 。 
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下 面 各 节 分 别 描述 了 <gettok cases> 的 各 种 情况 的 处 理 。 本 书 省 略 的 情况 包括 : 


(gettok cases 85)= 85 84 
case '/': (comment or /) 
case 'L': (wide-character constants) 
(cases for two-character operators) 
(cases for one-character operators and punctuation) 


gettok 遇 到 一 个 换行 或 等 价 于 换行 的 字符 时 ， 调 用 nextline 函数 : 
(gettok cases 85)+= & 85 84 
case '\n': case '\v': case '\r': case '\f': 
nextline(); 
if C(end of input 85)) { 
tsym = NULL; 
return EOI; 


continue; 


(end of input 85 )= 85 94 
cp == limit 
当 控 制 遇 到 这 一 情况 ， 进 行 如 下 处 理 : 将 cp 指向 换行 符 后 的 字符 ; 当 nextline 返回 后 ，cp 仍 指 
向 那个 字符 ， 且 小 于 limit。 只 有 处 理 到 文件 结束 时 cp 等 于 limit. H F *cp 总 是 一 个 换行 符 ， 对 
大 多 数 单词 符号 而 言 ， 此 时 可 以 中 止 扫 描 ， 因 此 很 少 需要 测试 是 否 满 足 cp 一 limit 的 条 件 。 
以 下 各 节 描 述 了 其 余 的 情况 。 单 词 符号 的 识别 比较 简单 ， 但 为 单词 符号 计算 附加 值 则 使 得 各 
种 情况 的 处 理会 复杂 一 些 。 


6.3 ”关键 字 的 识别 


共有 28 个 关键 字 : 
keyword: one of 

auto double int struct 
break else long switch 
char extern return union 
const float short unsigned 
continue for signed void 
default goto sizeof volatile 
do if static while 


关键 字 的 识别 可 以 通过 查 表 完 成 ， 表 中 每 个 关键 字 的 人 口 都 包含 它 的 单词 编码 ， 每 个 固有 类 型 的 
人 口 包含 它 的 类 型 。 关 键 字 还 可 以 通过 硬 编码 (hard-coded) 的 决策 树 识别 ， 决 策 树 的 方法 比 搜索 
表 更 快 ， 并 且 几 乎 同样 简单 。 由 于 完整 的 关键 字 一 定 都 在 输入 缓冲 区 中 ， 可 以 根据 关键 字 的 起 始 
小 写字 母 测试 关键 字 。 例 如 ， 当 起 始 小 写字 母 为 1 时 : 
(gettok cases 85)+= g5 86 84 
case’ “1** 
if (rcp[0] == 'f' 
&& !(map[rcp[1]]&(DIGIT|LETTER))) { 
cp = rcp + 1; 
return IF; 
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} 


if (rcp[0] == 'n' 


&& rcp[1] == 't 


&& !(map(rcp[2]]&(DIGIT|LETTER))) { 
cp = rcp + 2; 
tsym = inttype->u.sym; 
return INT; 


} 


goto id; 


标号 这 标记 的 代码 将 在 下 一 节 描 述 ， 用 于 扫描 标识 符 。 如 果 单 词 符号 是 让 或 int， 


回 相应 的 单词 编码 ; 否则 i 


则 修改 cp, iB 


该 单词 就 是 标识 符 。 如 果 是 int, tym 包含 了 类 型 int WAS RA. F 

符 串 abcdefglrsuvw 的 处 理 情况 类 似 ， 该 串 由 一 个 小 程序 自动 生成 。。 
这 些 程序 片段 生成 的 目标 代码 短小 且 速 度 快 。 例 如 ， 在 大 多 数 机 器 上 ，int 的 识别 所 需 指令 

DF 12 条 。 即 使 使 用 完美 的 hash 算法 ， 通 过 查 表 的 方式 识别 一 个 关键 字 ， 也 需要 更 多 的 指令 


6.4 标识 符 的 识别 
标识 符 的 语法 如 下 : 


identifier: 
nondigit { nondigit | digit } 

digit: 
one of0123456789 

nondigit: 
one of 
abcdefghijklm 
nopqrstuvwxyz 
ABCDEFGHEJKLM 
NOPQRSTUVWXYZ 

lec 标识 符 识 别 代码 符合 这 一 语法 ， 但 必须 具有 处 理 长 于 MAXTOKEN 的 标识 符 的 能 力 ， 而 这 
标识 符 可 能 跨 输入 缓冲 区 。 

(gettok cases 85 )+= 85 88 
case 'h': case 'j': case 'k': case 'm': case 'n': case 'o' 
case hie case 'q': case 'x': case ‘y': case 'z' 
case 'A': case 'B': case 'C': case 'D': case 'E': case ‘F': 
case 'G': case 'H': case “Ts case 'J': case ‘K': 
case 'M': case 'N': case '0': case 'P': case 'Q': case 'R': 
case 'S': case 'T': case 'U': case 'V': case 'W': case 'X': 
case "Y's case "Z": ease '.": 

id: 


(ensure there are at least MAXLINE characters 87 ) 


token = (char *)rcp - 1; 


while (map[*rcp}&(DIGIT|LETTER)) 


rcp++; 
token = stringn(token, (char *)rcp - token); 
(tsym — type named by token 87 ) 
cp = 
return ID; 


rcp; 
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所 有 的 标识 符 都 保存 在 字符 串 表 中 。 在 本 分 支 和 所 有 分 支 情况 下 ，cp 和 rcp 都 加 1 跳 过 了 单词 的 
第 一 个 字符 。 如 果 输 入 缓冲 区 的 字符 少 于 MAXLINE， 则 首先 cp 回 退 一 个 字符 ， 指 向 该 标识 符 
的 第 一 个 字符 ， 调 用 fllbuf 补充 输入 缓冲 区 ， 然 后 调整 cp 和 rcp， 使 二 者 如 同 先 前 一 样 ， 都 指向 
标识 符 的 第 二 个 字符 。 
ensure there are at least MAXLINE Characters 87 )= 86 88 91 
if Climit - rcp < MAXLINE) { 

cp = rcp - 1; 

FillbufQ; 

rcp = ++cp; 


typedef 为 一 个 类 型 创建 一 个 标识 符 作为 同义词 ， 这 些 名 字 安 装 在 标识 符 表 中 。 如 果 标 识 符 
有 符号 表 入 口 ，gettok 设置 tsym 指向 符号 表 的 人 口 。 
{tsym — type named by token 87 )= 86 
tsym = lookup(token, identifiers); 
如 果 某 个 单词 命名 了 一 个 类 型 ，tsym 就 被 设置 为 类 型 的 符号 表 入 口 ， 设 置 tsym->sclass 等 于 
TYPEDEF。 和 否则 ，tsym 为 空 或 标识 符 不 是 类 型 名 。 宏 istypename 测试 当前 单词 是 否 为 类 型 名 : 
(lex.c exported macros)= 
#define istypename(t,tsym) (kind[t] == CHAR \ 
|| t == ID && tsym && tsym->sclass == TYPEDEF) 
类 型 名 或 者 是 命名 类 型 的 关键 字 (如 int)， 或 者 是 使 用 typcdef 定义 的 类 型 标识 符 。 全 局 变量 + 和 
tsym 是 istypename 的 唯一 合法 参数 。 


6.5 ”数字 的 识别 
ANSIC 包含 4 种 数字 常量 : 


constant: 
floating-constant 
integer-constant 
enumeration-constant 
character-constant 


enumeration-constant: 
identifier 


上 节 展 示 的 标识 符 的 识别 代码 也 能 处 理 枚 举 常 量 ，6.6 节 的 代码 处 理 字符 常量 。 对 于 枚 举 常 
量 ， 词 法 分 析 器 返回 单词 编码 ID， 设置 tsym 指向 枚 举 常量 的 符号 表 入 口 。 调 用 者 检查 枚 举 常 
量 ， 在 枚 举 常 量 出 现 的 地 方 用 相应 的 整数 替换 。8.8 节 的 代码 就 是 这 种 转换 的 一 个 实例 。 
整 型 常量 分 为 3 种 : 
integer-constant: 
decimal-constant [ integer-suffix | 


octal-constant | integer-suffix | 

hexadecimal-constant [ integer-suffix ] 
integer-suffix: 

unsigned-suffix [ long-suffix ] 

long-suffix {| unsigned-suffix ] 
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unsigned-suffix: u | U 
Jong-suffix: 1 | L 


整 型 常量 的 前 几 个 字符 可 以 帮助 识别 它 的 种 类 : 


(gettok cases 85 )+= 


case '0': case '1": case '2': case '3': case "a" 
case '5': case '6': case '7': case '8': case '9': 


unsigned int n = 0; 
(ensure there are at least MAXLINE characters 87 ) 
token = (char *)rcp - 1; 
if (*token == '0' && (*rcp == 'x' || *rcp = 
(hexadecimal constant) 
} else if (*token == '0') { 
(octal constant) 
} else { 
(decimal constant 88 } 
} 
return ICON; 


} 


~ 
86 Y 


{ 


Xi 
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与 标识 符 识别 一 样 ， 首 先 保证 输入 缓冲 区 中 的 字符 不 少 于 MAXLINE 个 ， 使 得 代码 可 以 超前 搜 


索 ， 例 如 判断 十 六 进 制 常量 。 


3 种 整 型 常量 都 将 常量 值 保存 在 n 中 ， 代 码 不 仅 能 够 识别 常量 ， 还 要 保证 常量 在 可 表示 的 整 


型 范围 之 内 。 


下 面 以 十 进 制 常量 的 识别 为 例 说 明了 识别 过 程 。 十 进 制 常量 的 语法 是 : 


decimal-constant: 
nonzero-digit { digit } 


nonzero-digit: 
oneof123456789 


代码 反复 执行 乘法 ， 累 计 的 十 进 制 值 保存 在 n 中 : 


(decimal constant 88 )= 
int overflow = 0; 
for (n = *token - '0'; map[*rcp]&DIGIT; ) { 
int d = *rcp++ - '0'; 
if (n > CCunsigned)UINT_MAX - d)/10) 
overflow = 1; 
else 
n = 10*n + d; 


} 

(check for floating constant 89 ) 
cp = rcp; 

tsym = icon(n, overflow, 10); 
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UINT_MAX 为 可 表示 的 最 大 的 无 符号 数 的 值 。 在 每 一 步 ， 如 果 10*n+d>UINT_ MAX， 则 触发 溢 
出 。 上 面 的 代码 对 该 不 等 式 进行 了 变换 ， 测 试 na> ( (unsigned ) UINT MAX - d)/10， 并 在 计算 n 
的 新 值 之 前 判断 是 否 溢出 。 如 果 常 量 溢 出 ，overfiow 置 为 1。icon 函数 处 理 可 选 的 后 缀 。 
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如 果 一 个 十 进 制 常量 的 下 一 个 字符 是 小 数 点 或 一 个 指数 指示 符 ， 则 该 常量 是 一 个 浮 点 常量 的 
前 缀 : 


(check for floating constant 89 )= 38 
if (rcp == '.' || *rep == 'e’ [| *rcp = ‘E') { 
cp = rcp; 
tsym = fcon); 
return FCON; 
} 


fcon 与 icon 类 似 ， 识 别 浮 点 常量 的 后 级 。 如 果 浮 点 常量 的 整体 超过 UINT_ MAX，overflow 置 为 
1， 但 是 n 和 overflow 都 不 传递 给 fcon, fcon 再 次 检查 单词 符号 ， 测 试 浮 点 溢出 。 

icon 识别 可 选 的 U 和 工 后 级 ， 警 告发 生 溢出 的 值 ， 用 相应 的 类 型 和 值 初始 化 一 个 符号 ， 返 
回 指向 该 符号 的 指针 。 


(lex.c data) += 83 
static struct symbol tval; 


tval 的 作用 只 是 为 gettok 的 调用 者 提供 常量 的 类 型 和 值 。 在 再 次 调用 gettok 之 前 ， 调 用 者 必 
须 撤 销 相 应 的 数据 。 


(lex.c functions) += gà 90 
static Symbol icon(n, overflow, base) 
unsigned n; int overflow, base; { 
if ((*cp=='u' ] |*cp=='U") && (cp[1]=='1']]cp[1]=='L') 
[| (*cp=='"1'||*cp=='L') & (cp[1]=='u']|Icp[1]=='U')) { 
tval.type = unsignedlong; 
cp += 2; 
} else if (*cp == 'u' || *cp == ‘U") { 
tval.type = unsignedtype; 
cp += 1; 
} else if (*cp == '1' || *cp = 'L') { 
if (n > Cunsigned)LONG_MAX) 
tval.type = unsignedlong; 
else 
tval.type = longtype; 
cp += 1; 
} else if (base == 10 && n > (unsigned)LONG_MAX) 
tval.type = unsignedlong; 
else if (n > Cunsigned) INT_MAX) 
tval.type = unsignedtype; 
else 
© tval.type = inttype; 
if (overflow) { 
warning("overflow in constant '%S'\n", token, 
(char*)cp - token); 
n = LONG_MAX; 
} 
(set tval’s value 90 ) 
ppnumber ("integer"); 
return &tval; 


90 HOF 


WERP OU ALL ABH, M n 的 类 型 是 unsigned long; 若 只 出 现 U, n 的 类 型 是 unsigned ; 如 
果 只 有 IL， 则 n 的 类 型 是 long， 除 非 n 的 值 非常 大 (大 于 LONG MAX)， 这 时 nm 的 类 型 就 是 
unsignedlong。 如 果 十 进 制 常量 没有 任何 后 级， 则 当 n 的 值 非常 大 时 其 类 型 是 unsigned long， 否 则 
是 long。 没 有 后 级 的 八进制 和 十 六 进 制 的 常量 类 型 通常 为 int， 在 常量 值 非常 大 时 为 unsigned。 格 
式 代 码 %S 类 似 于 printf 的 %s， 打 印 一 个 字符 串 , 但 包含 一 个 额外 的 参数 指定 字符 串 的 长 度 ， 因 
此 可 以 打印 那些 不 是 以 空 字符 为 结束 的 字符 串 。 

类 型 int, long, unsigned 应 为 不 同 的 类 型 ， 但 lce 处 理 时 将 它们 的 大 小 定 为 一 样 的 。 这 一 限 
制 简化 了 上 述 测试 。 设 置 tval 的 值 的 代码 可 以 简化 为 : 


(set tval’s value 90 )= 89 
if Cisunsigned(tval .type)) 
tval.u.c.v.u = Nn; 
else 
tval.u.c.v.i = n; 


放宽 这 一 限制 将 会 使 这 段 代码 及 上 述 测试 更 复杂 。 例 如 ，C 标准 指定 无 后 缀 十 进 制 常 量 根据 它 的 
值 可 以 是 int, long, unsigned long. 在 lcc 中 ,由 于 int 和 long 表示 相同 范围 的 整数 ， 一 个 无 后 级 
的 十 进 制 常量 只 能 是 int BK unsigned. 

数字 常量 由 预 处 理 数 字 ( preprocessing num ber) 形成 ， 预 处 理 数字 是 C 预 处 理 器 识别 的 数字 
常量 。 遗 憾 的 是 , 语言 标准 规定 的 预 处 理 数 字 是 整 型 和 浮 点 常量 的 超 集 ， 这样， 合法 的 预 处 理 数 
字 很 可 能 不 是 合法 的 数字 常量 。 例 如 123.4.5， 预 处 理 器 也 可 以 处 理 这 样 的 数 ， 并 可 能 把 它们 传 
递 给 编译 器 ， 编 译 器 将 它们 作为 一 个 单词 符号 处 理 ， 导 致 预 处 理 数字 不 是 合法 的 常量 。 

预 处 理 数字 的 语法 如 下 : 

pp-number: 

[ . ] digit { digit | . | nondigit | E sign | e sign } 

sign: - | + 
THUD FCS AY BE BK A A E, PEREA J FR AY A A, icon 和 feon 也 可 能 在 没 
有 处 理 完整 个 预 处 理 数字 的 情况 下 ， 成 功 返 回 。icon 和 fcon 调用 ppnumber 函数 处 理 这 种 情况 。 

(lex.c functions) += 药 y 


static void ppnumber(which) char *which; { 
unsigned char *rcp = cp--; 


for ( ; (map[*cp]&(DIGIT|LETTER)) || *cp == '.'; cp++) 
if ((cp[0] == 'E' || cp[0] *e’) 
&& (cp[1] == '-' || cp[1] == '+')) 


cp++; 
if (cp > rcp) 
error("'%S' is a preprocessing number but an _ 
invalid %s constant\n", token, 
(char*)cp-token, which); 
} 


ppnumber 回 退 一 个 字符 ， 跳 过 那些 可 能 包含 预 处 理 数 字 的 字符 。 如 果 它 扫描 超过 数字 单词 符号 
的 结束 点 ， 则 表明 发 生 了 错误 。 

fcon 识别 浮 点 常量 的 后 级 ， 在 两 个 地 方 被 调用 ， 一 次 出 现在 上 述 <check for floating constant> 
中 ， 另 一 次 出 现在 gettok 处 理 … 的 分 支 情况 中 : 


EDR A 91 


(gettok cases 85 )+= B 93 84 
CASE /i 
if (rcp[0] == '.' && rcp[1] == '.') { 
cp += 2; 


return ELLIPSIS; 


if ((map[*rcp]&DIGIT) == 0) 
return “ee 
(ensure there are at least MAXLINE characters 87 ) 
cp = rcp - 1; 
token = (char *)cp; 
tsym = fconQ; 
return FCON; 


浮 点 常量 的 语法 为 : 


floating-constant: 
fractional-constant | exponent-part | | floating-suffix ] 
digit-sequence exponent-part [ floating-suffix | 


fractional-constant: 
[ digit-sequence | . digit-sequence 
digit-sequence . 
exponent-part: 
e [ sign ) digit-sequence 
E { sign ] digit-sequence 
digit-sequence: 
digit { digit } 
floating-suffix: 
one of f 1 FL 


fcon 识别 浮 点 常量 ， 将 token 转换 为 双 精 度 值 ， 确 定 tval 的 类 型 和 值 。 


(lex.c functions) += 90 
static Symbol fconQ) { 
{scan past a floating constant 92 ) 
errno = 0; 
tval.u.c.v.d = strtod(token, NULL); 
if (errno == ERANGE) 
(warn about overflow 91 ) 
(set tval’s type and value 92 ) 
ppnumber ("floating"); 
return &tval; 


} 


(warn about overflow 91 )= 91 92 
warning("overflow in floating constant '%S'\n", token, ` 
(char*)cp - token); 
C 库 函 数 strtod 将 它 的 第 一 个 串 参 数 解释 为 浮 点 常量 ， 返 回 相应 的 双 精 度 值 。 如 果 常 量 超过 范围 ， 
strtod 将 全 局 变量 ermo 置 为 ERANGE， 这 是 ANSI C 规范 对 C 库 的 要 求 。 


92 FOF 


上 述 语法 定义 的 浮 点 的 识别 如 下 : 
(scan past a floating constant 92 )= 91 
if (*cp == ".") 
{scan past a run of digits92 》 


if («cp == 'e' || *cp == 'E") { 
if (*++cp == '-" || *cp == '+') 
cp4++; 


if (map[*cp]&DIGIT) 
(scan past a run of digits 92 ) 
else 
errorC"invalid floating constant '%S'\n", token, 
(char*)cp - token); 


} 


(scan past a run of digits 92 )= 92 
do 
Cp++; 
while (map[*cp]&DIGIT) ; 
与 语法 规定 一 致 ， 指 数 指示 符 后 必须 跟随 至 少 一 个 数字 。 
学 点 常量 的 后 级 可 以 包含 F 或 L (但 二 者 不 能 同时 出 现 )， 分 别 指定 常量 类 型 为 float 或 long 
double。 


(set tval’s type and value 92 )= 91 
if (*cp == “个 || *cp == °F") { 
++Cp; 


if (tval.u.c.v.d > FLT_MAX) 
(warn about overflow 91 ) 

tval.type = floattype; 

tval.u.c.v.f = tval.u.c.v.d; 


} else if (*cp = “12 || *cp = 'L’) { 
cpt; 
tval.type = longdouble; 

} else 


tval.type = doubletype; 


6.6 字符 常量 和 字符 串 的 识别 


转 义 序 列 (escape sequence) (如 、\034、\xEFF 和 \") 和 宽 字 符 常 量 Cwide-character) 使 字 
符 常 量 和 字符 串 文字 的 识别 变 得 复杂 。lcc 将 所 谓 的 宽 字 符 作为 普通 的 ASCI 字 符 实 现 ， 类 型 
wchar t 使 用 无 符号 字符 实现 。 语 法 为 : 

character-constant: 

{ L ] ‘c-char { c-char }' 


c-char: 
any character except ', \, or newline 
escape-sequence 


escape-sequence: 
one of \' \" \? \\ \a \b \f \n \r \t Ww 
\ octal-digit { octal-digit { octal-digit ] ] 
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\x hexadecimal-digit { hexadecimal-digit } 


string-literal: 
[L] “{ s-char }" 

s-char: 
any character except ", \, or newline 
escape-sequence 


利用 换行 符 之 前 紧 接 一 个 反 斜 线 符 / ， 字 符 串 文字 能 够 实现 跨行 。 邻 接 的 字符 串 文字 自动 结合 在 
一 起 形成 单个 的 字符 串 文字 。 在 严格 的 ANSI CEAR, TA (splicing) 和 字符 串 文字 的 连 
接 (concatenation) 由 预 处 理 器 处 理 ， 编 译 器 看 到 的 只 是 一 个 不 间断 的 字符 串 文字 s。 loo 为 字符 串 
文字 实现 了 行 的 接合 和 字符 串 文字 的 连接 ， 可 以 和 ANSI 之 前 的 预 处 理 器 一 起 使 用 。 

实现 这 些 特征 意味 着 字符 串 文字 的 长 度 可 能 超过 MAXLINE 个 字符 ， 因 此 <ensure there are 
at least MAXLINE characters> 不 能 用 来 保证 邻接 的 整个 字符 串 文字 序列 都 出 现在 输入 缓冲 区 中 。 
相反 ， 代 码 必须 显 式 测试 在 limit 的 换行 符 ， 调 用 nextline 函数 ， 并 且 将 文字 复制 到 一 个 私有 缓冲 
区 中 。 


(gettok cases 85 )+= 1 Um 
scon: 
Case” N 2: cases Fist 
static char cbuf[BUFSIZE+1]; 
char *s = cbuf; 
int nbad = 0; 
*s++ = *--Cp; 
do { 
cp++; 
(scan one string literal 94 ) 
if (*cp == cbuf[0]) 
Cp++; 
else 
error("missing %c\n", cbuf[0]); 
} while (cbuf[0] == '"' && getchrQ == '"'); 
*st+ = 0; 
if (s >= &cbuf[sizeof cbuf]) 
error("%s literal too long\n", 
cbuf[0] == '"' ? “string” : "character"); 
(warn about non-ANSI literals) 
{set tval and return ICON or SCON 93 》 
} 


字符 串 文字 可 通过 前 导 字符 一 一 双 引 号 识别 ， 外 层 do-while 循环 收集 随后 的 字符 串 文字 ， 复 
制 到 cbuf 中 ， 并 报告 长 度 过 长 的 情况 。 前 导 字符 也 决定 了 附加 值 和 gettok 返回 值 的 类 型 ; 


(set tval and return ICON or SCON 93 )= - 93 

token = cbuf; 

tsym = &tval; 

if (cbuf[0] == '"') { 
tval.type = array(chartype, s - cbuf - 1, 0); 
tval.u.c.v.p = cbuf + 1; 
return SCON; 

} else { 


94 HOF 


if (s - cbuf > 3) 
warning("excess characters in multibyte character _ 
literal '%S" ignored\n", token, (char*)cp-token); 
else if (s - cbuf <= 2) 
errorC'missing '\n"); 
tval.type = inttype; 
tval.u.c.v.i = cbuf[1]; 
return ICON; F 
} 


转 义 序列 \O 使 字符 串 文 字 可 以 包含 空 字符 ， 因 此 文字 长 度 由 其 类 型 给 出 : 一 个 包含 n 个 字符 的 
文字 的 类 型 为 (ARRAY n (CHAR) )(n 不 包括 双 引 号 )。gettok 函数 的 调用 者 ， 例 如 primary 函数 ， 
如 果 需 要 保存 tval 引用 的 字符 串 文字 ， 可 以 通过 调用 stringn 函数 实现 。 

下 列 代 码 扫描 一 个 字符 串 文字 或 字符 常量 ， 处 理 4 种 情况 : limit 处 有 换行 符 、 转 义 序 列 、 非 
ANSI 字 符 和 超过 cbuf 大 小 的 文字 。 


(scan one string literal 94 )= 
while (*cp != cbuf[0]) { 
int c; 
if (map[*cp]&NEWLINE) { 
if (cp < limit) 
break; 
Cp++; 
nextline(); 
if ((end of input 85 )) 
break; 
continue; 
} 
C = *cp++; 
if (Cc == '\\') { 
if (map[*cp]&NEWLINE) { 
if (cp < limit) 
break; 
Cp++; 
nextlineQ; 


93 


} 
if (limit - cp < MAXTOKEN) 
fillbufQ; 
c = backslash(cbuf[0]); 
} else if (map[c] == 0) 
nbad++; 
if (s < &cbuf[sizeof cbuf] - 2) 
*S4+4+ = C; 


} 


WER *limit 是 一 个 换行 符 ， 仅 起 到 指示 缓冲 区 末尾 的 作用 ， 因 此 该 换行 符 被 忽略 ， 除 非 后 面 没有 
输入 。 其 他 的 换行 符 ( 当 cp 小 于 limit 时 出 现 的 换行 符 ) 和 文件 尾 的 一 个 换行 符 将 终止 while 循 
环 ， 此 时 cp 不 会 加 1。backslash 函数 解释 上 面 介绍 的 转 义 序列 ， 参 见 练习 6.10。nbad 变量 记录 
串 中 出 现 的 非 ANSI 字 符 的 个 数 。 如 果 串 中 出 现 非 ANSI 字 符 或 者 串 长 度 超过 ANSI 规定 的 509 
个 字符 ，lcc 编译 选项 -A -A 会 产生 警告 信息 。 
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深入 阅读 

lce 的 输入 模块 基于 Waite (1986) 所 介绍 的 设计 。 不 同 的 地 方 在 于 Waite 的 算法 一 次 只 移动 
一 个 部 分 行 ， 而 不 是 可 能 的 几 个 部 分 行 或 单词 ， 而 且 该 操作 是 在 扫描 到 缓冲 区 中 第 一 个 换行 符 后 
进行 的 。 如 果 一 个 部 分 行 的 长 度 超过 固定 的 最 大 值 ， 则 该 操作 会 覆盖 缓冲 区 之 前 的 存储 空间 。lecc 
的 算法 避免 了 该 问题 ， 一 次 可 以 移动 几 个 可 能 的 部 分 行 或 单词 ， 只 是 在 识别 每 个 单词 时 必须 比较 
limit-cp 与 MAXTOKEN。 

词法 分 析 器 能 够 通过 语言 词法 结构 的 正则 表达 式 规 范 生 成 。UNIX 上 的 LEX (Lesk，1975 ) 
是 最 为 熟知 的 例子 。Schreiner and Friedman ( 1985 ) 在 其 编译 器 中 利用 LEX，Holub (1990 ) 详 
述 了 一 个 类 似 工 具 的 实现 。 更 多 近期 的 生成 器 ， 如 flex. re2c (Bumbulis and Cowan，1993 )， 以 
及 ELI 的 扫描 器 生成 器 (Gray etal., 1992; Heuring，1986 )， 它 们 产生 的 词法 分 析 器 比 LEX 产 
生 的 更 快 且 更 小 。ELI 的 一 些 技术 在 Ice 的 gettok 中 也 得 到 应 用 。 

“完美 的 ”hash 函数 应 能 将 一 个 已 知 集合 的 每 个 字 映 射 为 不 同 的 hash {Ei (Cichelli, 1980 ; 
Jaeschke and Osterburg, 1980; Sager，1985 )。 一 些 编译 器 使 用 了 完美 的 hash 算法 来 识别 关键 字 ， 
但 是 通常 这 些 hash 算法 本 身 比 lcc 识别 关键 字 的 hash 算法 使 用 了 更 多 的 指令 。 

loo 依赖 库 函数 strtod 将 浮 点 常量 的 字符 串 表 示 转 换 为 相应 的 双 精 度 值 。 尽 可 能 精确 地 实现 
这 一 转换 相当 复杂 。Clinger( 1990 ) 展示 了 在 一 些 情况 下 ， 转 换算 法 需要 任意 精度 。 许 多 strtod 
的 实现 就 是 基于 Clinger 算法 。 相 反 的 问题 是 ， 将 一 个 双 精 度 值 转换 为 它 的 字符 串 表 示 也 很 困难 。 
Steele 和 White (1990) 给 出 了 细节 。 


练习 

6.1 如 果 输 入 的 一 行 多 于 BUFSIZE 个 字符 ， 将 会 出 现 什么 现象 ? lec 能 正确 处 理 长 度 为 0 的 行 吗 ? 

6.2 C 预 处 理 器 生成 如 下 形式 的 代码 行 : 

# n "file" 

#line n "file" 

#line n 

这 些 代码 行 用 于 将 当前 行 号 和 文件 名 分 别 重 置 为 n 和 file， 使 错误 信息 能 够 指向 正确 的 文件 和 位 置 。 在 
第 三 种 形式 中 ， 只 重 置 行 号 ,文件 名 保持 不 变 。nextline 函数 调用 resynch 

函数 识别 这 些 代 码 行 ， 从 而 重 置 file 和 lineno。 请 实现 resynch 函数 。 

63 在 C 的 大 多 数 实现 中 ， 预 处 理 器 作为 单独 的 程序 运行 ， 预 处 理 器 的 输出 作为 编译 器 的 输入 。 将 预 处 理 
器 作为 input.c 整体 的 一 部 分 实现 ， 并 测试 性 能 的 改善 情况 。 注 意 : 写 一 个 预 处 理 器 是 一 项 大 的 工作 ， 
可 能 有 很 多 缺陷 。ANSI 标 准 是 预 处 理 器 的 唯一 定义 规范 。 

6.4 实现 gettok 函数 省 略 的 片段 。 

6.5 当 1cc 读 入 的 标识 符 长 度 大 于 MAXLINE 时 ,将 会 出 现 什 么 现象 ? 

6.6 实现 函数 intgetchr (void). 

6.7 ”尝试 实现 更 好 的 关键 字 哈 希 算法 ,并 与 lcc 现在 使 用 的 算法 进行 比较 。 

6.8 ”八进制 常量 的 语法 为 : 


octal-constant: 

0 { octal-digit } 
octal-digit: 

oneof0 1234567 


e A i E E E 


编写 <octal constant>, YER: 一 个 八进制 常量 是 浮 点 常量 合法 的 前 级 ， 并 且 八 进 制 常量 也 会 溢出 。 
6.9 ”十 六 进 制 常量 的 语法 为 : 


hexadecimal-constant: 
(0x | 0X ) hexadecimal-digit { hexadecimal-digit } 


hexadecimal-digit: 
oneof01234567abcdefABCDEF 


编写 <hexadectmal constant>。 注 意 处 理 溢 出 。 
6.10 ”实现 下 面 的 函数 : 


(lex.c prototypes) = 
static int backslash ARGS(Cint q)); 


该 函数 解释 以 cp 开始 的 一 个 转 义 序列 。 其 中 ，q 可 以 是 单 引号 或 双 引 号 ， 以 区 分 字符 常量 和 字符 串 
文字 。 实 现 该 转 义 函数 。 
6.11 实现 <wide-character constants> 的 代码 。 记 住 wchar t 是 一 个 unsigned char， 常 量 LN377' 的 值 应 为 
255， 而 不 是 -1。 
6.12 ”利用 LEX 或 类 似 的 程序 生成 器 重新 实现 词法 分 析 器 ， 比 较 两 种 实现 方法 。 哪 一 个 更 快 ? 
哪 一 个 更 小 ? 哪 一 个 更 容易 理解 并 修改 ? 
6.13 在 你 的 机 器 中 需要 用 多 少 条 指令 完成 <skip white space>? 如 果 使 用 cp 代替 rcp， 需 要 多 少 条 指令 ? 
6.14 ”编写 程序 为 C 关键 字 生 成 <gettok cases>。 
6.15 lec 假设 int Fl long (符号 和 无 符号 ) 大 小 相同 。 如 果 要 取消 这 一 不 恰当 的 假设 ， 如 何 修改 icon 函数 ? 
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第 6 章 描述 的 词法 分 析 为 语法 分 析 提 供 了 单词 序列 。 语 法 分 析 过 程 确 认输 入 是 和 否 符合 语言 的 
文法 规则 ， 并 建立 输入 源 程序 的 内 部 表示 。 随 后 的 loc 程序 遍历 内 部 表示 ， 生 成 特定 目标 机 器 的 
代码 。 

lec 采用 递归 下 降 (recursive-descent) 的 语法 分 析 。 它 是 传统 手工 构造 分 析 方 法 的 一 种 直接 应 
用 。 这 种 方法 能 产生 一 个 短小 而 高 效 的 编译 器 ， 适 于 编译 C 和 Pascal 之 类 较为 简单 的 语言 。 事 实 
上 ， 许 多 商业 编译 器 的 构造 都 采用 了 这 种 方法 。 

然而 ， 对 复杂 的 语言 分 析 ， 使 用 语法 分 析 器 生成 器 更 为 可 取 。 例 如 ， 递 归 下 降 分 析 能 识别 诸 
如 C 之 类 的 语言 ， 但 对 于 像 ADA 的 其 他 一 些 语 言 却 无 能 为 力 。 对 于 后 者 ， 必 须 使 用 功能 更 强大 
的 分 析 方 法 ， 自 底 向 上 的 分 析 就 属于 其 中 一 种 。 手 工 构建 这 类 语法 分 析 器 非常 困难 ， 必 须 使 用 自 
动 生成 的 方法 。 

本 章 以 形式 语言 理论 为 基础 ， 采 取 语 法 制导 翻译 方法 ， 处 理 程序 中 的 错误 ， 相 关 代码 在 随后 
的 章节 中 给 出 。 


7.1 语言 和 语法 

正如 前 面 章 节 所 介绍 的 ， 我 们 可 以 用 EBNF 文法 定义 语言 。 大 多 数 重要 的 语言 都 是 无 限 的 ， 
比如 程序 设计 语言 。 文 法 是 一 种 用 有 限 的 规则 定义 无 限 集合 的 方法 。 

文法 的 产生 式 给 出 了 生成 句子 的 规则 ， 通 过 反复 使 用 非 终结 符 的 某 个 产生 式 的 右 部 蔡 换 这 个 
非 终结 符 来 产生 句子 。 例 如 ，EBNF 文法 


expr: 
expr + expr 
ID 


定义 了 一 种 具有 简单 表达 式 的 语言 ，expr 为 开始 非 终结 符 。 在 这 个 语言 中 ， 句 子 的 推导 过 程 是 : 
以 expr 开 始 ， 反 复 用 规则 的 右 部 蔡 换 左 部 的 非 终结 符 。 本 例 中 只 有 两 条 规则 ， 因 此 ， 一 种 可 能 
的 替换 是 : 

expr => expr+ expr 
这 样 的 操作 过 程 称 为 一 个 推导 步 (derivation step)。 如 果 存 在 一 组 类 似 的 推导 步骤 并 最 终 推出 一 个 
句子 ， 就 称 这 组 推导 步 是 关于 此 句子 的 一 个 推导 ( derivation)。 每 个 推导 步 都 是 一 个 非 终结 符 被 
其 产生 式 ( 称 为 候选 式 ) 之 一 的 右 部 替换 。 例 如 ， 句 子 ID+ID+ID 能 通过 以 下 步 又 推出 : 


expr => expr+ expr 
= expr+ID 
= expr+ expr + ID 
= ID+ expr+ ID 
= ID+ID+ID 


第 1 步 ， 使 用 产生 式 
expr: expr + expr 
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的 右 部 替换 左 部 的 开始 非 终结 符 expr。 第 2 步 ， 运 用 产生 式 expr: ID 对 第 1 步 得 到 的 名 型 中 最 
右边 的 expr 进行 替换 。 后 面 的 3 步 使 用 以 上 两 种 规则 ， 最 终 得 出 ID+ID+ID。 可 以 看 到 ， 每 一 步 
推导 都 产生 一 个 由 终结 符 和 非 终 结 符 组 成 的 句 型 ( sentential form)。 句 型 和 句子 的 区 别 在 于 : 句 
型 由 终结 符 和 非 终 结 符 构 成 ， 句 子 只 由 终结 符 构 成 。 
在 每 步 推导 中 ， 都 可 以 选取 句 型 中 任意 一 个 非 终 结 符 ， 然 后 用 相关 规则 的 右 部 进行 替换 。 
如 果 每 一 步 推导 都 是 名 型 中 最 左边 的 非 终结 符 被 替换 ， 则 称 这 样 的 推导 为 最 左 推导 (leftmost 
derivation)。 例 如 : 
expr => expr+ expr 
=> ID + expr 
=> ID+ expr+ expr 
= ID+I1D+ expr 
= ID+ID+ID 
是 关于 句子 ID+ID+ID 的 最 左 推导 。 分 析 器 能 对 一 个 给 定 的 句子 ( 即 输入 的 C 程序) 重新 构造 推 
导 。lcc 分 析 器 是 一 种 自 顶 向 下 的 分 析 器 (top-down parser)， 它 能 重 构 输 入 串 的 最 左 推 导 。 


7.2 二 义 性 和 分 析 树 
考虑 用 下 列 文法 定义 的 语言 : 
expr: 
expr + expr 
expr * expr 
ID 
假设 a、b 和 为 标识 符 ，a+b、a+b+c 和 atb*c 是 该 语言 的 句子 。 
我 们 既 可 以 像 上 面 那 样 写 出 句子 的 推导 过 程 ， 也 可 以 采用 分 析 树 (parse tree) 的 图 示 方 法 描 
述 这 个 过 程 。 例 如 ， 关 于 atbte 的 最 左 推导 如 下 : 
expr => expr + expr 
=> expr+ expr + expr 
= a+ expr+ expr 
= a+b+expr 
=> a+b+i+c 
对 应 的 分 析 树 如 图 7-1 左边 的 树 所 示 。 分 析 树 的 中 间 节 点 用 非 终 结 符 标 记 ， 叶 节点 用 终结 符 标 
记 ， 它 的 根 用 文法 的 开始 符号 标记 。 如 果 某 个 节点 标记 为 非 终结 符 A， 其 直接 子 节 点 从 左 到 右 依 
次 标记 为 Kis Xz» Pi ie Big 那么 A: KA A 是 一 个 产生 式 。 


rr 
k ei e i aea a 
| 


图 7-1 atbte 的 两 棵 分 析 树 
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如 果 一 个 句子 能 够 对 应 一 棵 以 上 的 分 析 树 ， 也 就 是 同时 存在 几 个 不 同 的 最 左 推导 ， 则 称 该 文 
法 是 二 义 的 。 例 如 ，a+b+c 除 上 面 描述 的 最 左 推导 外 ， 还 有 另外 一 种 形式 的 最 左 推导 ， 对 应 的 分 
析 树 见 图 7-1 右边 的 树 。 
上 例 之 所 以 出 现 二 义 性 问题 是 因为 文法 没有 体现 “+” 的 通常 的 左 结合 次 序 。a+b+c 的 正确 
解释 应 该 是 (a+b) +c， 其 推导 如 上 ， 语 法 分 析 树 为 图 7-1 左边 的 树 。 
使 用 EBNF 的 重复 结构 来 重 写 文法 就 可 以 解决 二 义 性 问题 ， 新 的 文法 规定 afb+c 只 存在 一 种 
推导 ， 即 (a+b) +c: 
expr: 
expr { + expr } 
expr { * expr } 
ID 
改写 文法 后 ，a+b+c 只 有 一 种 最 左 推 导 。 这 里 ， 我 们 首先 必须 弄 清 包含 重复 结构 的 EBNF 产生 式 
的 含义 ， 才 能 更 好 地 理解 新 的 推导 规则 。 有 如 下 形式 的 产生 式 : 
A: B {x} 
它 表示 A 能 推导 出 一 个 以 B 开 头 ， 且 后 紧 跟 有 零 个 或 多 个 w 的 名 型， 这 种 文法 也 可 以 描述 为 : 
A: B X 
X€ | ax 
这 里 ,，X 能 推出 空 串 〈 记 为 e), 或 者 ax。 先 使 用 A 的 产生 式 ， 再 反复 使 用 X 的 产生 式 ， 就 可 以 
导出 以 B 开 头 、 后 跟 零 个 或 多 个 a KA. EBNF 的 重复 结构 省 略 了 许多 像 XX 那样 的 隐藏 的 非 终 
结 符 ， 但 要 注意 ， 这 些 隐藏 的 非 终 结 符 必须 包含 在 语法 分 析 树 中 。 很 容易 对 文法 再 次 重 写 ， 引 入 
这 些 非 终 结 符 。 下 面 是 加 入 非 终 结 符 后 形成 的 新 文法 : 
expr: 
expr X 


expr Y 
ID 


X: e | + expr X 
Y: € | * expr Y 

修改 后 ，atb+tc 只 对 应 一 种 最 左 推导 ， 即 
expr => exprx 


上 41444414 
x 


可 以 看 出 ， 分 析 器 能 够 选择 左 结合 的 解释 进行 这 种 推导 ， 当 然 ， 对 于 右 结合 的 操作 符 也 可 以 选择 
其 他 解释 。 

操作 符 “* ”也 存在 同样 的 问题 ， 解 决 方法 与 上 面 一 样 。 另 外 ， 从 一 般 意 义 上 讲 ,“*” 比 起 
“+” 具 有 更 高 的 优先 级 ， 因 而 ， 文 法 的 描述 应 有 助 于 对 类 似 atb*c 这 样 的 句子 做 出 正确 的 解释 。 
然而 ， 上 面 修改 的 文法 却 不 能 正确 处 理 这 类 优先 级 问题 ， 下 面 是 对 atb*c 的 推导 : 
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® 
N 
Re 


expr 


1 1414 
z 


a+b*ce 

在 第 4 步 中 ,推导 产生 的 表达 式 被 解释 成 了 (atb) *c， 而 不 是 at (b*e), 

一 种 解决 方法 是 ， 引 入 一 个 单独 的 非 终结 符 用 于 推导 含 * 的 句子 ， 并 将 这 个 非 终结 符 设 为 
“+” 的 操作 数 ， 这 样 就 能 体现 “* ”具有 更 高 优先 级 。 

expr: term X 

term: ID Y 

X: e€ | + term X 

Yre|* IDY 
用 新 的 文法 对 atb*c 再 次 进行 最 左 推导 就 变 为 : 


expr term X 


aYX 

aex 

a€ + term X 
ae+bYX 
ac+b*c YX 
ae+b*ceXx 
aé€+b* cee 


term 推出 一 个 包含 b*c 的 句子 ，b*c 在 这 里 解释 为 加 运算 的 右 操作 数 。 在 第 8 章 中 我 们 将 详细 讨 
论 这 种 方法 ， 它 能 普遍 运用 于 处 理 任 意 多 层 的 优先 级 以 及 解决 操作 符 的 左右 结合 等 各 种 问题 。 
上 述 文法 的 构造 过 程 通常 被 省 略 ， 而 直接 写 出 相应 的 EBNF 文法 。 例 如 ， 可 用 1.6 节 的 表达 
式 文法 完成 上 面 的 文法 功能 。 
其 他 的 二 义 性 问题 也 能 通过 重 写 文法 解决 。 但 还 有 一 种 专门 的 解决 方法 ， 它 更 为 简单 和 直 
接 ， 即 选择 唯一 一 种 解释 作为 正确 的 解释 ， 而 将 其 他 的 解释 视 为 错误 的 。 例 如 诺 语 句 中 悬挂 else 
的 二 义 性 问题 : 
stmt: 
if ( expr) stmt 
if ( expr) stmt else stmt 
RE ifs A HES: 一 是 让 语句 中 的 else 与 最 外 层 的 让 语句 对 应 ， 男 一 种 是 其 中 的 else 与 
最 内 层 的 站 对 应 。 我 们 通常 采用 的 是 后 一 种 解释 方法 。 在 第 10 章 中 ， 我 们 一 遇 到 else 就 对 它 进 
行 分 析 ， 以 此 实现 后 一 种 解释 。 


7.3 自 上 而 下 的 语法 分 析 

在 一 种 语言 中 ， 文 法 定义 了 句子 的 生成 规则 ， 这 些 规则 也 可 以 用 于 识别 句子 。 从 前 面 的 内 
容 可 知 ， 一 个 语法 分 析 器 就 是 一 个 程序 ， 它 通过 重建 句子 的 推导 过 程 来 识别 和 理解 给 定语 言 的 句 
子 。 在 识别 过 程 中 ,语法 分 析 器 重建 句子 的 分 析 树 ， 这 棵 树 反映 了 句子 的 整个 推导 过 程 。 当 然 ， 
大 多 数 语 法 分 析 器 并 不 真正 画 出 这 样 一 棵 树 ， 而 是 构造 与 树 等 价 的 内 部 描述 ,或 者 仅 当 节点 生成 
时 执行 某 种 语义 处 理 (semantic processing) 动作 。 
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实际 的 语法 分 析 器 都 是 从 左 至 右 读 取 输 入 符号 。 但 不 同类 型 的 语法 分 析 器 构造 分 析 树 的 方式 
不 同 。 自 上 而 下 的 语法 分 析 器 是 以 开始 非 终结 符 为 人口， 不 断 猜测 下 一 步 推导 ， 最 终 实 现 整 个 名 
子 的 最 左 推导 。 推 导 过 程 中 ， 输 入 的 下 一 个 单词 帮助 选取 适当 的 产生 式 完 成 下 一 步 推导 。 例 如 ， 
下 面 的 文法 定义 了 一 种 简单 的 语言 {cabd，cad}: 

S: cAd 

A: ab 

a 

假定 一 个 分 析 器 分 析 输 入 cad。 首 先 输入 的 c 表明 应 选择 S 的 第 一 个 产生 式 〈 唯 一 可 选 的 产生 
式 )。 因 此 第 一 步 推导 是 : 


S as CAd 
c 匹配 后 接着 输入 下 一 个 符号 ， 这 时 分 析 器 必须 使 用 A 的 产生 式 。 由 于 下 一 个 单词 是 a， 因 而 可 
以 选择 A 的 第 一 个 产生 式 ， 推 导 过 程 为 : 


S = cAd 
= cabd 


A 的 第 一 个 产生 式 中 的 符号 a 被 匹配 后 ， 输 入 转 人 下 一 个 单词 ， 这 时 分 析 程序 将 停止 工作 ， 输 入 
AE d 不 能 与 当前 推导 使 用 的 产生 式 的 下 一 个 符号 b 继续 匹配 。 问 题 出 在 我 们 先前 选 错 了 A 的 产生 
式 。 分 析 器 只 能 回 退 到 上 一 步 ， 并 且 输入 也 回 退 错误 推导 中 读 和 的 输入 符号 ， 重 新 选择 A 的 另 一 
AFFE: 


S = cAd 
=> ¢ aid 


输入 回 退 到 a， 与 这 次 推导 中 剩余 的 符号 继续 匹配 ， 后 面 的 4 亦 获 匹 配 ， 此 时 分 析 即 告 成 功 。 

上 述 简单 的 例子 说 明 ， 自 上 而 下 的 语法 分 析 利 用 输入 单词 选取 适当 的 产生 式 ， 只 要 输入 单词 
与 推导 中 的 终结 符 匹 配 ， 相 应 的 输入 单词 就 算 处 理 完 成 。 若 在 某 步 推导 的 右 部 遇 到 非 终结 符 ， 程 
序 自 动 选 择 这 个 非 终结 符 的 产生 式 作为 下 一 步 推导 。 这 个 例子 也 指出 了 自 上 而 下 分 析 的 一 个 缺 
陷 ， 错 误 使 用 产生 式 将 导致 不 得 不 回溯 前 面 的 推导 。 对 较 复 杂 的 语言 来 说 ， 这 种 回溯 将 导致 推翻 
前 面 已 做 的 许多 工作 。 尤 为 重要 的 是 ， 大 多 数 推导 产生 的 负面 影响 是 很 难 消除 的 。 例 如 ， 需 要 随 
时 备份 输入 数据 、 撤 销 对 符号 表 的 搬入 等 。 同 时 ， 回 溯 还 使 得 分 析 过 程 变 得 非常 缓慢 。 最 坏 的 情 
况 是 ， 运 行 时 间 可 能 以 输入 单词 数 的 指数 倍增 长 。 

自 上 而 下 的 语法 分 析 方 法 仅 在 能 完全 避免 回溯 的 情况 下 才 具 有 实际 价值 。 这 个 限制 条 件 使 得 
它 局 限于 处 理 特定 的 语言 ， 即 仅 通过 观察 输入 的 下 一 个 单词 ， 就 能 选择 一 个 正确 的 产生 式 完 成 下 
一 个 推导 。 幸 运 的 是 ,包括 C 在 内 的 许多 程序 语言 都 能 满足 这 样 的 条 件 。 

实现 自 上 而 下 的 语法 分 析 的 一 般 方 法 是 ， 对 文法 中 的 每 个 非 终结 符 写 出 相应 的 语法 分 析 函 数 
(parsing function)， 当 要 用 到 某 个 非 终 结 符 的 产生 式 时 ， 就 调用 相关 的 函数 。 由 于 这 些 非 终结 符 之 
间 可 能 递归 引用 ， 因 而 分 析 函 数 之 间 也 必然 会 有 递归 调用 。 例 如 ， 对 下 面 形式 的 推导 : 


A = ... => QAB =... 


a, PENARIP. EARR R aS AY A E F ATA AS AE F EATA X 
种 分 析 过 程 就 像 一 棵 向 下 生长 的 分 析 树 ， 在 树 的 每 个 节点 处 调用 递归 函数 。 

推导 过 程 无 须 显 式 构 造 ， 处 理 递归 函数 调用 的 调用 栈 隐 含 记录 了 推导 状态 。 实 际 上 ， 每 个 非 
终结 符 的 函数 就 是 对 非 终结 符 的 每 个 候选 式 的 编码 ， 组 成 一 个 比较 和 调用 的 序列 。 在 产生 式 中 ， 
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终结 符 处 理 成 与 当前 的 输入 单词 比较 ， 非 终结 符 处 理 成 调用 相关 的 函数 。 例 如 ,假设 函数 gettok 
返回 上 述 语 言 的 单词 ， 产 生 式 S:cAd 对 应 的 函数 如 下 : 
int SCvoid) { 
4 
t = gettok(); 
if (AQ == 0) 
return 1; . 
if Ct == 'd') { 
t = gettokQ; 
return 1; 
} else 
return 0; 
} else 
return 0; 
} 
QU PA A AIS 能 识别 从 A 和 S 导出 的 句子 ,， 则 A AS GIL 1, 否则 返回 0。 分 析 开 始 时 ， 主 
程序 main 先 调用 gettok 进行 初始 化 ， 并 得 到 第 一 个 输入 单词 ， 然 后 调用 函数 S: 
int t; 
void main(void) { 
t = gettok(); 
if (SO == 0) 
error("syntax error\n"); 
if (t != EOI) 
error("syntax error\n"); 
} 
EOI 代表 输入 结束 的 单词 编码 。 只 有 当 所 有 的 输入 组 成 一 个 该 语言 的 句子 时 ， 才 能 说 输入 是 合 
法 的 。 


7.4 FIRST 和 FOLLOW 集合 


为 了 给 文法 的 每 个 非 终结 符 编写 语法 分 析 函 数 ， 必 须要 根据 输入 的 下 一 个 待 处 理 的 单词 选择 
适当 的 产生 式 。 假 设 a 是 文法 的 符号 串 ，FIRST(o) 是 这 样 一 个 集合 : 它 的 元 素 是 从 w 导出 的 所 有 
句子 的 起 始终 结 符 。FIRST 集合 能 够 帮助 我 们 在 推导 中 选取 适当 的 产生 式 。 

假定 文法 包括 产生 式 Aca 和 A:B， 下 一 步 推导 是 用 A 的 某 个 产生 式 的 右 部 替换 A， 这 时 分 
析 程 序 将 调用 A 的 分 析 函 数 选择 适当 的 产生 式 。 如 果 下 一 个 单词 属于 FIRST(o)， 则 选取 产生 式 
Aa; 反之 ， 若 下 一 个 输入 单词 属于 FIRST(P)， 则 选取 产生 式 A:B。 如 果 下 一 个 输入 单词 不 属于 
FIRST(a) U FIRST(B)， 则 表示 有 语法 错 。 显 然 ，FIRST(Q) 和 FIRST(B) 不 能 相交 。 

当 a 只 是 一 个 非 终结 符 时 ，FIRST(a) 就 是 指 能 由 这 个 非 终结 符 推导 出 的 所 有 句子 的 起 始终 结 
符 组 成 的 集合 。 给 定 一 个 文法 ， 其 中 所 有 的 文法 符号 的 FIRST 集合 都 能 通过 检查 产生 式 获得 。 
这 种 检查 往往 要 迭代 多 次 ， 直 到 所 有 的 FIRST 不 再 加 入 新 元 素 时 才 停止 。 

如 果 义 表示 终结 符 a，FIRST(X) 就 是 {a}j。 如 果 X 表 示 非 终结 符 ， 而 且 有 产生 式 X:au 
(aAA), W aM A FIRST), WRAT ERX: [a] 或 者 X: fa}, I FIRST) 应 加 
HE FIRST(X), MAA e PERRETE R, e 也 要 加 进 FIRST(X)。 如 果 有 下 列 形式 的 产 
生 式 : ， 
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则 
FIRST (œ1) U FIRST(az)wU…-U FIRST (oy) 


都 应 加 进 FIRSTCO。 如 果 产 生 式 形 如 X:YiY>…Yk， 甚 中立 是 文法 符号 ， 则 FIRST(Y,Y,---Y,) 应 
加 进 FIRST(X). 

FIRST(Y Yz YI 的 内 容 由 YY 到 Y, K FIRST 集合 确 定 ， 其 初始 状态 为 空 。 将 FIRST(Y)) 中 
除 s 外 的 所 有 元 素 加 进 FIRST(YY…YD。 如 果 FIRST(CY) 包 括 e, WH FIRST(Y,) 中 除 s 外 的 所 
有 元 素 全 加 进 FIRST(Y1Y,…Y,)， 如 此 重复 下 去 。 若 FIRST(Y; 1) 包含 =。， 就 将 FIRST(CY) 中 除 = 外 
的 所 有 元 素 加 进 FIRST(Y1Y,…Y)。 最 后 的 结果 是 ，FIRST(Y1Y,…Y) 包括 了 所 有 具有 se- 透明 
的 FIRST 集 合 元 素 (e- HAG ec), WLM FIRST(Y,) 到 FIRST(Y) 都 含有 s， 则 8 也 应 加 进 
FIRST(Y Yz Yo 

考虑 1.6 节 给 出 的 简单 表达 式 的 文法 : 

expr: 


term { + term } 
term { - term } 


term: 
factor { * factor } 
factor { / factor } 


factor: 
ID 
I0 '(' expr{ , expr} ')' 
A expr A 


文法 中 ， 每 一 行 表示 非 终结 符 的 一 个 候选 式 。FIRST(expr) 等 于 : 
FIRST (term { + term }) U FIRST (term { - term }) 

必须 先 计算 FIRST(term) 的 值 ， 才 能 得 出 FIRST(expr). FIFE, FIRST(term) 等 于 : 
FIRST (factor { * factor }) U FIRST (factor { / factor }) 


它 也 必须 等 FIRST(factor) 计算 出 来 才能 得 到 。 这 里 FIRST (factor) 容易 计算 ， 因 为 factor 的 产生 
式 都 以 终结 符 为 起 始 字符 : 
FIRST(factor) = FIRST(ID) U FIRST(ID '(' expr { , expr} ')')- 
UFIRST(' (' expr ')') 
= {10 G 
现在 可 以 计算 出 FIRST(term), FIRST(term) 为 {ID (}, FA, FIRST(expr) 也 为 {ID (}。 
有 时 仅 知道 FIRST 集合 还 不 足以 确定 选取 哪个 产生 式 。 假 设 文法 : 


X: AB 
Cc 
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通常 情况 下 ， 我 们 根据 下 一 个 输入 单词 是 属于 FIRST(AB) 还 是 FIRST(C) 来 选取 相应 的 产生 式 。 
现在 如 果 FIRST(AB) 包 含 s， 即 AB 能 推导 出 空 句 ， 这 时 通过 这 两 个 FIRST 集合 不 能 确定 合 
适 的 产生 式 ， 还 必须 考虑 能 够 跟 在 X 后 面 的 单词 ， 这 些 单词 组 成 X 的 FOLLOW 集合 。 换 言 之 ， 
FOLLOW(X) 是 一 个 终结 符 组 成 的 集合 ， 它 的 元 素 是 所 有 含 X 的 句 型 中 紧 跟 在 X 后 面 的 终结 符 。 
FOLLOW 集合 为 文法 的 非 终 结 符 提供 了 “右边 的 上 下 文 "， 可 用 于 错误 检测 和 文法 构造 ， 所 以 它 
适用 于 递归 下 降 分 析 。 在 本 例 中 ， 如 果 下 一 个 输入 单词 属于 FIRST(AB) U FOLLOW(X) 则 选取 
X:AB 做 推导 ; 若 属于 FIRST(C) 则 选取 X:C, “4%, FIRST(AB) U FOLLOW(X) 与 FIRST(C) 是 
不 相交 的 。 

FOLLOW 集合 比 FIRST 集合 更 难 计 算 。 主 要 是 因为 它 要 扫描 所 有 的 含 非 终结 符 的 产生 
式 ， 而 不 只 是 考虑 定义 该 非 终结 符 的 产生 式 。 比 如 说 对 于 产生 式 X:c YB, FIRST(B)—{e} 应 加 
进 FOLLOW(Y)。 如 果 FIRST(B) 8 e- 透明 ( 即 它 包 含 s) 则 FOLLOW(X) 要 加 进 FOLLOW(Y)。 
对 于 形 如 X:aY 的 产生 式 , FOLLOW(X) 应 加 进 FOLLOW(Y)。 与 FIRST 集 合 的 计算 相同 ， 
FOLLOW 集合 的 生成 也 要 反复 扫描 产生 式 ， 直 至 所 有 集合 的 元 素 不 再 增加 。 另 外 ， 要 将 文件 结 
RAE “ ”加 进 开始 非 终结 符 的 FOLLOW 集合 。 

下 面 将 说 明 如 何 计 算 1.6 节 表达 式 文 法 的 FOLLOW 集合 。 由 于 expr 是 开始 符号 ， 因 此 
”FOLLOW(expr) 包括 “| ”。expr 仅 出 现在 factor 的 产生 式 中 ， 因 而 : 

FOLLOW (expr) {~} u FIRST({ , expr} ')') U FIRST(')’) 
{OT 

FIRST(')') ¥ “Y þu A FOLLOW(expr). {A Æ FIRST({,expr}) 417% e, [Alt FIRST({,expr}')’) 
将 “)” 加 入 FOLLOW(expr). 

term 在 两 个 expr 的 产生 式 中 各 出 现 两 次 ， 所 以 : 

FOLLOW(term) = FOLLOW(expr) 

U FIRST({ + term }) u FIRST({ - term }) 
= {, )+ + -} 

同样 ，factor 在 每 个 term 产生 式 中 出 现 两 次 。 

FOLLOW (factor) = FOLLOW(term) 

U FIRST ({ * factor }) U FIRST({ / factor }) 
= {,)4+-*/} 


7.5 编写 分 析 函 数 


编译 器 使 用 EBNF 文法 描述 语言 ， 为 每 个 非 终结 符 计算 FIRST 集合 和 FOLLOW 集合 ， 编 写 
分 析 函 数 将 非 终 结 符 的 每 个 产生 式 翻 译 成 可 执行 代码 。 它 的 基本 思想 是 为 每 个 非 终 结 符 X 构造 一 
个 函数 X， 按 照 和 的 产生 式 规则 编写 相应 的 代码 。 

翻译 的 规则 可 由 文法 产生 式 的 可 能 形式 导出 。 对 每 一 种 产生 式 形 式 wx， 用 Ta 表示 a 的 翻 
译 代码 。 在 分 析 过 程 中 的 任意 一 点 , 全 局 变量 t 表 示 从 词法 分 析 器 读 和 人 的 当前 单词 ， 调 用 函数 
gettok 可 以 获取 下 一 个 输入 单词 。 

假设 有 产生 式 X:a， 它 的 翻译 函数 XX 为 


XO { T(a) } 
# 7-1 的 左 栏 给 出 了 每 一 种 a 的 产生 式 形 式 ， 右 栏 给 出 了 每 种 产生 式 对 应 的 代码 ， 即 T(a). 
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Boo (FIRST (cx) — fe UFOLLOW(X), tte © FIRST (a) 
O) =) FIRST (a) » 其 他 


表 7-1 分 析 函 数 翻译 


a T(a) 
终结 符 A if (t == A) t = gettok(7; 
oji else error 
JER HERF X XO; 


if (t e D(a,)) Tla) 
else if (te D(az)) Taz) 


a, | a | | ok Fas 
else if (te D(ay)) Tag) 
else error 
Of, Kz +> Ok Ta) Taz) --- Teg) 
[a] if (tED(a)) Tla) 
{ox} while (te D(a)) T(a) 


当然 ， 表 7-1 的 代码 也 可 用 其 他 代码 序列 表示 ， 例 如 Toll) 可 以 用 switch 语句 表示 。 
相反 ， 机 械 地 套用 表 7-1 的 代码 有 时 会 造成 代码 元 长 ,采取 一 些 简单 的 转换 可 改进 这 个 问题 ， 比 
如 用 表 7-1 的 规则 导出 产生 式 


parameter-list: [ID { , ID } ] 


的 分 析 函 数 可 分 成 以 下 7 步 : 
1. T(parameter-list) 
2. T({ 10 { , ID} }) 
3. if (t == ID) { T(ID{ , ID }) } 
4 


. if (t == ID) { 
if (Ct == ID) t = gettok(); 
else error("missing identifier\n"); 
T({ , ID }) 
} 


5. if (t == ID) { 
if (t = ID) t = gettokQ); 
else error("missing identifier\n"); 
while (t == ',') { T(, ID) } 
} 


6. if (t == ID) { 

if (t == ID) t = gettok(); 

else errorC"missing identifier\n"); 

while (t == ',') { 
if (t == ',') t = gettokQ; 
else error("missing ,\n"); 
T(ID) $ 

} 

} 
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7. if (t == ID) { 
if (t == ID) t = gettokQ; 
else error("“missing identifier\n"); 
while (t == ',") { 
if Cf —",’) t = gettokO; 
else error("missing ,\n"); 
if (t == ID) t = gettokQ; 
else errorc("missing identifier\n"); 
} 
} 
步骤 4 中 的 第 二 个 让 语句 测试 =D 是 多 余 的 。 如 果 控 制 执行 到 此 并 语句 ， 则 这 个 测试 条 件 一 定 
HA. XM, HR 6 中 while 循环 体内 的 让 语句 (测试 是 否 为 逗号 ) 也 没 必 要 。 综 上 所 述 ， 函 
数 可 做 如 下 简化 : 
void parameter_list(void) { 
if (t == ID) { 
t = gettok(Q); 
while (t == ',') { 
t = gettok(); 
if (t == ID) t = gettokQ; 
else error("missing identifier\n"); 
} 
} 
} 
编写 分 析 程 序 时 ， 我 们 通常 用 提取 左 公 因子 (left factoring) 的 方法 避免 重 写 文 法 和 增加 新 的 


非 终结 符 。 比 如 ，A:aBlay 即 为 A:a(Bly)， 故 T(aBlay) 可 写成 : 

T(a) T(B | y) 
在 某 些 情况 下 ，a 作为 几 个 产生 式 的 公共 前 级 出 现 ， 会 涉及 重要 的 语义 处 理 。 这 时 ,我 们 通常 引 
入 一 个 新 的 非 终结 符 ， 然 后 对 相关 的 产生 式 提取 左 公 因子 ， 从 而 把 a 的 语义 处 理 单独 封装 为 一 个 
分 析 函 数 。 


7.6 ”处 理 语法 错误 


FIRST 和 FOLLOW 集合 及 相关 的 子 集 不 仅 可 以 指导 分 析 决策 ， 而 且 能 够 用 来 检查 错误 。 程 
序 中 经 常 存在 两 类 错误 : 语法 错误 (syntax error) 和 语义 错误 (semantic error)。 前 者 指 输入 不 是 
语言 的 合法 句子 ， 后 者 指 输入 虽然 合法 ， 但 无 意义 。 例 如 ， 表 达 式 x=6， 从 语法 角度 分 析 是 正确 
的 ， 但 若 x 没 有 提前 声明 ， 则 表达 式 在 语义 上 是 错误 的 。 

语义 错误 由 分 析 函 数 根据 指定 结构 的 语义 进行 检查 和 处 理 。 在 分 析 函 数 的 实现 过 程 中 会 描述 
这 些 错 误 。 : 

语法 错误 可 以 采用 系统 的 方式 解决 ， 不 依赖 于 出 现 的 上 下 文 。 这 些 错 误 较 易 发 现 ， 通 常 出 现 
ER 7-1 所 示 的 翻译 代码 error 中 。 但 要 修正 错误 并 非 易 事 。 当 然 ， 不 能 说 一 发 现 错误 就 停止 分 
析 ， 这 样 做 极 不 合理 ， 错 误 处 理 的 大 部 分 工作 用 于 进行 错误 恢复 ， 使 分 析 工 作 得 以 继续 。 

出 现 语法 错误 意味 着 出 现 的 句子 不 属于 给 定 的 语言 。 语 法 错误 的 恢复 方法 是 通过 对 输入 添加 
遗漏 的 单词 或 者 忽略 某 些 单词 将 错误 的 输入 转换 为 合法 的 句子 。 遗 憾 的 是 ， 选 择 合适 的 恢复 方法 
非常 困难 。 如 果 选 择 错 误 将 导致 分 析 程序 乱 套 ， 甚 至 后 面 在 文法 上 正确 的 输入 也 将 产生 大 量 语 法 
错误 。 更 糟 的 是 ， 恢 复 某 些小 错误 可 能 导致 当前 分 析 处 理 输 入 的 中 断 。 
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递归 下 降 分 析 器 的 结构 有 助 于 选取 合适 的 错误 恢复 策略 。 分 析 器 由 许多 函数 组 成 ， 每 个 函数 
只 完成 整个 分 析 任务 的 一 小 部 分 。 因 此 ， 目 标 被 划分 成 若干 子 目 标 ， 每 个 子 目 标 调用 相关 的 分 析 
函数 实现 。 为 了 保证 分 析 的 持续 性 ， 编 写 的 每 个 函数 都 应 确保 下 一 个 输入 单词 能 够 合法 地 跟 在 某 
个 名 型 的 非 终 结 符 之 后 。 这 样 ， 如 果 检 测 到 了 错误 ， 相 应 的 分 析 函 数 就 会 马上 报错 ， 跳 过 非法 输 
和 人 单词 ， 直 至 过 到 能 跟 在 给 定 非 终结 符 后 的 单词 才 继续 往 下 分 析 。 

具体 而 言 ， 假 设 构造 了 一 个 非 终结 符 X 的 分 析 函 数 X， 如 果 下 一 个 输入 单词 不 属于 非 终结 符 
X 的 FOLLOW 集合 ， 函 数 就 略 过 它 ， 反 复 执行 直至 遇 到 X 的 FOLLOW 集合 中 的 单词 。 这 种 思 
想 的 初衷 是 为 了 使 分 析 程 序 与 输入 保持 同步 。 在 处 理 完 属于 FOLLOW(X) 的 单词 后 ， 要 将 所 有 合 
法 的 部 分 返回 给 函数 的 调用 者 。 但 这 种 方法 也 存在 局 限 性 ， 它 不 能 处 理 含有 非 终结 符 X 的 名 
型 。 例 如 ， 非 终结 符 往 出 现在 名 型 QXB 中 。 函 数 X 将 会 略 过 D(B) 中 的 元 素 。 由 于 D(B) 通常 比 
FOLLOW(X) 小 ， 当 分 析 识 别 出 一 个 属于 FOLLOW), 但 不 属于 D(B) 的 输入 单词 时 ， 程 序 丢弃 
该 单词 ，X 停止 继续 执行 。 这 种 判断 显然 为 之 过 早 。 此 外 ， 函 数 和 的 调用 程序 还 会 做 出 其 他 不 必 
要 的 语法 报错 。 可 见 ， 如 果 D(B) 已 知 ， 函 数 必 须 使 用 D(B)， 否 则 使 用 FOLLOW(X)。 比 如 ， 调 
用 表达 式 的 分 析 函 数 expr0 分 析 for 语句 的 第 三 个 表达 式 时 ， 函 数 就 利用 了 集合 { ; ) } 恢复 表达 
式 存 在 的 语法 错误 。 

下 面 error.c 中 的 输出 函数 采用 了 上 述 策略 : 


(error.c exported functions)= 197 
extern void test ARGS((int tok, char set[])); 


该 函数 检查 下 一 个 单词 是 否 等 于 tok。 如 果 不 等 ， 则 发 出 提示 信息 ， 并 跳 过 当前 单词 ， 反 复 执 行 
直至 遇 到 一 个 属于 {tok } U set 的 单词 。set 集合 包含 了 所 有 不 能 忽略 的 元 素 ， 保 证 输入 不 会 无 限 
地 忽略 。set 只 是 一 个 以 空 指针 为 结束 标记 的 单词 编码 数组 。 


{error.c functions)= 108 
void test(tok, set) int tok; char set[]; { > 
if (t == tok) 
t = gettok(); 
else { 
expect (tok) ; 
skipto(tok, set); 
if (t == tok) 
t = gettok(); 
} 
} 


函数 test 调用 函数 expect 报错 ， 调 用 函数 skipto 跳 过 错误 的 单词 。expect 和 skipto 的 代码 见 下 文 。 

如 果 编 译 器 发 现 输 入 错误 ， 而 采取 跳 过 当前 输入 的 方法 是 合适 的 对 策 时 ，test 采用 的 策略 将 
能 良好 地 工作 。 但 是 ， 如 果 遇 到 一 个 预期 的 单词 在 输入 中 被 漏 掉 ， 则 test 无 法 做 出 正确 的 处 理 。 
这 时 ， 可 以 采用 另 一 种 更 为 有 效 的 方法 进行 报错 和 处 理 ， 即 假定 预期 的 单词 存在 ， 然 后 继续 分 
析 。 这 种 方法 能 够 有 效 插入 遗漏 的 单词 ， 由 于 所 遗漏 的 通常 是 具有 简单 句法 功能 的 单词 ， 例 如 分 
号 或 者 逗号 ， 因 此 这 种 方法 能 够 很 好 地 工作 。 下 面 提供 了 有 具体 的 实现 代码 : 


(error.c exported functions) += 107 109 
extern void expect ARGSCCint tok)); i 


108 #7# 


该 函数 检查 下 一 个 单词 ， 即 t 的 当前 值 是 否 与 tok 相等 ， 如 果 是 ， 则 转 和 人 下 一 个 输入 单词 。 


(error.c functions) += 107 108 
void expect(tok) int tok; { 
if Ct == tok) 
t = gettok(); 
else { 
error("syntax error; found”); 
printtoken() ; 
fprint(2, " expecting '%k'\n", tok); 
} 
} 


当 expect 被 函数 test 调用 时 ， 第 一 个 测试 条 件 肯定 不 满足 ， 调 用 的 目的 只 是 为 了 进行 错误 诊断 和 
报错 。 当 需要 一 个 特定 的 预期 单词 时 ， 其 他 的 分 析 函 数 也 会 调用 expect, expect 处 理 该 预期 的 单 
词 。 如 果 预 期 的 单词 被 漏 掉 了 ，expect 进行 诊断 报错 ， 然 后 返回 ， 输 入 停 在 当前 位 置 。 这 样 做 的 
效果 如 同 实际 存在 这 样 一 个 预期 的 标识 符 。 

expect 调用 函数 error 开始 显示 错误 信息 ， 接 着 调用 静态 函数 printtoken 显示 当前 输入 单词 
( 即 由 t 给 定 的 单词 和 token)， 最 后 调用 fprint 显示 错误 信息 的 最 后 结论 。 例 如 ， 调 用 expect 处 理 
输入 串 “intx[5; ”显示 的 诊断 信息 为 : 


syntax error; found ';' expecting ']' 


从 expect 的 代码 可 以 知道 ， 函 数 error 初始 化 错误 信息 ，error 的 输入 参数 是 一 个 printf 风格 
的 格式 串 和 其 他 参数 。 除 了 输入 的 信息 外 ，error 还 可 以 打印 由 gettok 得 到 的 当前 单词 在 源 程序 中 
的 位 置 ， 并 将 错误 信息 的 总 数 保存 在 变量 errcnt 中 。 


(errorc functions) += 108 | 10 
void error VARARGS((char *fmt, ...), 
(fmt, va_alist),char *fmt; va_dcl) { 
va_list ap; 


if (errcnt++ >= errlimit) { 
errcnt = -1; 
error("too many errors\n”); 
exit(1); 


va_init(ap, fmt); 

if Cfirstfile l= file && firstfile & *firstfile) 
fprint(2, "%s: firstfile); 

fprint(2, "%w: ", src); 

vfprint(2, fmt, ap); 


va_end(ap) ; 
} 
(error.c data)= 109 
int errcnt = 0; x 


int errlimit = 20; 
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如 果 errcnt WH AK, error 会 终止 程序 的 执行 。 函 数 warning 与 error 很 相似 , 但 显示 的 是 警告 信 
息 ， 不 会 增 大 errcnt MH. PAM fatal 也 与 error 类 似 ， 但 在 显示 错误 信息 后 会 立刻 停止 编译 , Al - 
此 只 有 当 编 译 程序 本 身 有 错时 才 调 用 fatalo 

最 后 一 个 与 出 错 处 理 相关 的 函数 是 : 

(error.c exported functions) += 107 

extern void skipto ARGS((Cint tok, char set[])); 

skipto 不 断 跳 过 输入 单词 ， 直 至 遇 到 单词 t (t BAH tok 相等 ， 要 么 使 得 kind[t 包含 在 无 效 终结 
符 数组 set 中 )。 数 组 kind 的 定义 如 下 : 


(error.c exported data)= 
extern char kind[]; 


kind 以 单词 编码 为 下 标 ， 把 单词 编码 划分 为 不 同 的 集合 。 数 组 定义 时 包括 token.h， 并 且 抽 取 
token.h 的 第 6 栏 。token.h 见 6.2 W: 


(error.c data)+= 108 
char kind[] = { 
#define xx(a,b,c,d,e,f,g) f, 
#define yy(a,b,c,d,e,f,g) f 
#include "token.h" 


, 


kind[t] 是 一 个 单词 编码 ， 它 意味 着 一 个 含有 t 的 集合 。 例 如 编码 ID 表示 集合 FIRST(expression) 
(expression 的 定义 见 8.3 节 )。 因 而 ， 对 每 个 单词 t E FIRST(expression)，kind[t] 与 ID 相等 。 语 
名 kind[t] = 了 D 测 试 t 是 否 属 于 FIRST(expression)。 利 用 数组 {ID, 0} 作为 函数 skipto 的 第 二 个 
参数 ， 指 示 函 数 跳 过 若干 个 无 关 的 单词 直至 找到 一 个 属于 FIRST(expression) 的 元 素 。 

下 面 概括 了 所 有 的 kind 值 。 左 边 的 单词 编码 代表 包含 该 单词 编码 的 集合 ， 右 边 列 出 了 集合 
中 的 单词 : 


ID FCON ICON SCON SIZEOF & ++ -- *+-~( ! 
CHAR FLOAT DOUBLE SHORT INT UNSIGNED SIGNED 
VOID STRUCT UNION ENUM LONG CONST VOLATILE 
STATIC EXTERN AUTO REGISTER TYPEDEF 
IF BREAK CASE CONTINUE DEFAULT DO ELSE 
FOR GOTO RETURN SWITCH WHILE { 
对 于 上 面 未 提 及 的 单词 ，kind[t 就 等 于 t， 例 如 kind'y 等 于 少 。 由 kind 定义 的 集合 与 7.4 节 
描述 的 FIRST 集合 有 如 下 关系 : 


kind[ID] = FIRST (expression) 

kind[ID] U kind[IF] = FIRST (statement) 

kind[CHAR] u kind[STATIC] c FIRST (declaration) 

kind[STATIC] c FIRST (parameter) 
上 面 列 出 的 非 终结 符 分 别 在 第 8、10 和 11 章 中 定义 。 

因为 skipto 的 第 二 个 参数 是 数组 ， 如 果 一 些 额外 单词 的 kind 值 与 自身 相等 ， 例 如 前 面 提 到 
的 中 ,那么 这 个 数组 可 以 表示 集合 的 超 集 。 在 一 些 情况 下 ， 这 些 超 集 与 FOLLOW 集合 相关 。 例 
如 ， 某 个 statement 后 面 必须 紧 跟 一 个 } BK FIRST(statement) 的 单词 statement 的 分 析 函 数 将 包含 
IF, ID 和 } 的 数组 作为 参数 传递 给 skipto。 

当 skipto 跳 过 单词 时 ,通知 前 8 个 和 最 后 一 个 跳 过 的 单词 : 
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(error.c functions)+= 108 
void skipto(tok, set) int tok; char set[]; { 
int n; 
char *s; 


for (n = 0; t != EOI && t != tok; t = gettok()) { 
for (s = set; *s && kind[t] != *s; S++) 


if (kind[t] == *s) 
break; 

if (n++ == 0) 
error("skipping") ; 

if (n <= 8) 
printtoken() ; 

else if (n == 9) 
forintCe T cas J 


} 

if (n> 8) 4 
fprint(2, " up to"); 
printtoken() ; 


} 
if (Cn > 0) 
fprint(2, “\n"); 
$ 
如 果 t 与 tok 相等 , 或 者 t 属 于 kind[t], skipto 不 跳 过 任何 单词 ， 也 不 会 发 出 出 错 信息 。 假 设 bug.c 
只 有 一 行 : 
fprint(2, " expecting '%k'\n", tok); 
它 的 语法 错误 在 于 这 一 行 代 码 应 该 属于 某 个 函数 。 虽 然 对 fprint 的 调用 看 上 去 是 一 个 函数 定义 的 
开头 ,但 lcc 能 很 快 发 现 这 个 错误 ， 函 数 test 调用 expect 和 skipto 显示 下 面 的 信息 : 
bug.c:1: syntax error; found '2' expecting ')' 
bug.c:1: skipping '2' ',' " expecting '%k'\12" ',' 'tok' 


值得 注意 的 是 右 括号 没有 被 跳 过 。 
深入 阅读 

许多 书 都 讲述 了 构造 一 个 编译 器 的 理论 和 实践 方法 ， 例 如 Aho，Sethi and Ullman (1986 ), 
Fischer and LeBlanc ( 1991 )、Waite and Goos ( 1984). Davie and Morrison ( 1981 ) 以 及 Wirth ( 1976 ) 
阐述 了 递 局 下降 编 译 器 的 设计 与 实现 。 

自 底 向 上 的 分 析 器 重新 构建 输入 串 的 最 右 推导 ， 按 照 从 叶 节 点 到 根 节 点 的 顺序 建立 分 析 
树 。 这 种 分 析 器 能 处 理 多 种 类 型 的 语言 ， 而 且 文 法 编写 也 容易 ， 因 而 普遍 应 用 于 各 种 编译 器 。 大 
多 数 自 底 向 上 的 分 析 器 都 采用 LR 的 分 析 策 略 ， 或 是 它 的 各 种 变形 。LR 分 析 法 最 初 由 Aho and 
Johnson ( 1974 ) 发 表 ，Aho，Sethi and Ullman ( 1986 ) 对 这 种 分 析 法 做 了 详细 介绍 。 以 后 相继 出 
现 了 许多 种 分 析 器 产生 器 ， 它 们 也 能 处 理 语 言 的 句法 规则 (这 种 规则 的 形式 大 多 同 练习 7.2 的 规 
则 相似 )， 并 能 自动 生成 分 析 程 序 。YACC (Johnson, 1975) 就 是 一 个 用 于 UNIX 平台 的 分 析 器 


产生 器 。YACC 和 LEX 同时 工作 时 能 大 大 简化 编译 器 的 实现 。Aho，Sethi and Ullman ( 1986 )、 
Kernighan and Pike( 1984 ) 以 及 Schreiner and Friedman( 1985 ) 讲述 了 YACC 和 LEX 的 许多 实例 。 
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Holub (1990) 也 介绍 了 另 一 个 分 析 器 产生 器 的 实现 。 

其 他 的 分 析 器 产生 器 都 是 基于 属性 文法 的 ，Waite and Goos ( 1984 ) 介绍 了 属性 文法 的 概念 
以 及 相关 的 分 析 器 产生 器 。 

lce 的 出 错 处 理 机 制 与 Stirling (1985) 中 提 及 的 方法 相似 ，Wirth (1976) 应 用 了 这 种 方法 。 
Burke and Fisher ( 1987 ) 还 提出 了 一 种 新 的 方法 ， 它 或 许 是 处 理 LR ALL 分 析 表 错误 的 最 佳 
方法 。 


练习 


7.1 使 用 前 几 童 的 词法 分 析 器 和 符号 表 模 块 拼 建 一 个 简单 的 分 析 器 ,使 之 能 识别 由 下 面 文法 定义 的 表达 式 ， 
并 画 出 分 析 树 。 


expr: 
term { + term } 
term { - term } 


term: 
factor { * factor } 
factor { / factor } 


7.2 编写 一 个 程序 ， 使 之 能 计算 EBNF 文法 的 FOLLOW il FIRST 集合， 并 报告 哪些 因素 影响 递归 下 降 分 
析 。 针 对 与 EBNF 相似 的 文法 设计 一 种 输入 表示 方法 。 例 如 ， 假 设 给 定 一 个 自由 格式 的 文法 ， 文 法 中 
非 终 结 符 用 插入 “-” 符 号 的 小 写字 母 表示 ， 终 结 符 用 大 写字 母 表示 ， 或 者 用 单 引号 或 双 引 号 括 起 来 ， 
产生 式 都 以 分 号 结尾 。 例 如 ， 练 习 7.1 中 的 文法 可 表示 为 : 


expr : term { ( ‘+" | '-' ) term} ; 

term 3: factor  € CoS" JA termik s 

factor : ID [ 'C' expr { , expr} ‘)' ] 
Pete 


针对 输入 的 语法 ， 给 出 一 个 EBNF 说 明 ， 采 用 本 章 描述 的 技术 编写 递归 下 降 分 析 器 来 识别 输入 。 
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表 达 式 





C 的 表达 式 构成 了 一 种 子 语言 (sublanguage)， 可 以 直接 根据 这 种 子 语言 写 出 表达 式 的 分 析 函 
数 。 这 一 特点 使 得 我 们 从 表达 式 出 发 ， 能 够 更 好 地 描述 lcc 中 8 个 分 析 和 处 理 输入 的 源 程序 的 模 
块 。 这 些 函 数 将 建立 源 程序 的 内 部 表示 ， 例 如 抽象 语法 树 和 1.3 节 描 述 的 代码 表 。 

用 于 语法 分 析 和 描述 表达 式 的 模块 有 4 个 : expre 实现 语法 分 析 函 数 ， 识 别 和 翻译 表达 式 ; 
tree.c 实现 管理 分 析 树 的 基本 函数 ， 分 析 树 是 表达 式 的 内 部 中 间 表 示 ; enode.c 实现 类 型 检查 (type- 
checking) 函数 ， 保 证 表达 式 语义 的 有 效 性 ， 输 出 建立 和 操作 分 析 树 的 函数 ; simp.c 实现 与 树 转换 
FAAP, PUN HT (constant folding) 等 。 

广泛 地 说 ， 本 章 的 重点 是 解释 tree.c 和 expr.c 两 个 模块 ， 描 述 用 于 表示 表达 式 的 抽象 语法 树 
的 形式 。 在 大 部 分 介绍 中 ， 我 们 采用 了 自 项 向 下 的 方式 浏览 语法 分 析 函 数 ， 了 解 它们 如 何 建立 分 
析 树 。 第 9 章 将 具体 结合 C 语言 的 语义 规则 讨论 分 析 树 表示 的 意义 ， 并 采用 与 建立 类 型 检查 树 过 
程 一 致 的 自 底 向 上 的 方式 浏览 语义 函数 。 本 章 最 后 一 节 则 是 一 个 例外 ， 它 既 描 述 了 抽象 语法 树 中 
表示 常量 和 标识 符 的 叶 节 点 的 各 种 形式 ， 又 介绍 了 如 何 处 理 这 些 叶 节点 所 表示 的 意义 。 


8.1 表达 式 的 表示 


编译 器 不 仅 具 有 识别 和 分 析 表 达 式 的 能 力 ， 还 应 该 能 建立 表达 式 的 中 间 表 示 ， 从 而 验证 表达 
式 的 有 效 性 ， 生 成 目标 代码 。 我 们 通常 采用 抽象 语法 树 (或 其 他 简单 的 树 结构 ) 作为 表达 式 的 中 
间 表 示 。 抽 象 语法 树 是 一 类 特殊 的 分 析 树 ， 没 有 表示 非 终结 符 的 节点 ， 也 没有 表示 无 用 的 终结 符 
的 节点 ， 其 节点 代表 操作 符 ， 子 节点 表示 操作 数 。 例 如 ， 表 达 式 (atb)+b*(atb) 的 抽象 语法 树 表 
示 如 图 8-1 所 示 ， 图 中 的 节点 不 是 语法 分 析 的 非 终结 符 ， 也 不 表示 单词 “( ”和 “》”。 由 于 图 中 
的 操作 符 (例如 ADD+I 和 MUL+I) 包含 了 相关 的 信息 ， 因 此 图 中 也 没有 节点 直接 表示 单词 + 和 
*。ADDRG+P 节点 表示 计算 其 操作 数 指定 的 标识 符 的 地 址 。 


ADD+I MUL+I 
INDIR+I INDIR+I INDIR+I ADD+I 
ADDRG+P ADDRG+P ADDRG+P INDIR+I INDIR+I 
a b b 


ADDRG+P ADDRG+P 
a b 


8-1 (a+b) +b* (a+b) 的 抽象 语法 树 


抽象 语法 树 中 的 操作 符 通常 不 出 现在 源 语言 中 。 例 如 ， 节 点 INDIR+I 表示 按 操作 数 指定 的 地 
址 取 整 数 ， 但 在 C 语言 中 ， 没 有 显 式 的 “ 取 ” 操 作 符 。 另 外 还 有 由 于 隐 式 转换 引入 的 转换 操作 符 
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和 作为 语义 规则 的 结果 引入 的 一 些 操作 符 。 某 些 这 样 的 操作 符 并 不 会 产生 对 应 的 运行 指令 ， 引 入 
它们 是 为 了 便于 编译 。 

与 类 型 表示 一 样 ， 抽 象 语法 树 也 能 写成 以 括号 开头 的 形式 。 比 如 表达 式 (atb)+b*(atb) 的 抽 
象 语法 树 ( 见 图 8-1) 可 以 用 下 面 的 式 子 表示 : 


(ADD+I 
(ADD+I CINDIR+I (ADDRG+P a)) CINDIR+I CADDRG+P b))) 
(MUL+I 
CINDIR+I (ADDRG+P b)) 
(ADD+I CINDIR+I (ADDRG+P a)) CINDIR+I (ADDRG+P b))) 
) 
) 


分 析 表 达 式 的 过 程 也 是 生成 抽象 语法 树 的 过 程 。 对 树 节点 ， 我 们 给 出 如 下 定义 : 
(tree.c typedefs)= 


typedef struct tree *Tree; 


(tree.c exported types) = 
struct tree { 
int op; 
Type type 
Tree keds (2): 
Node node; 
union { 
{u fields for Tree variants 128) 
} ui 
}; 
op 域 表示 操作 符 的 代码 ，type 域 指向 Type， 表 示 运 行 时 该 节点 计算 结果 的 类 型 ，kids 域 表 示 操 
WER node 域 用 于 建立 与 树 对 应 的 dag (无 环 有 向 图 )( 详 见 12.2 节 )。 某 些 操作 符 对 应 的 树 含有 
附加 信息 ， 这 些 信 息 都 放 在 联合 u 中 。 

抽象 语法 树 的 各 类 操作 符 形成 了 第 5 章 定 义 的 节点 操作 符 ( 见 表 5-1) 的 超 集 ， 这 些 操作 符 
用 于 树 时 ， 它 们 的 写法 与 前 面 不 同 。 表 中 的 通用 操作 符 加 上 表示 类 型 的 后 级 就 形成 了 分 析 树 中 的 
操作 符 。 例 如 ，ADD+I 代表 整数 加 法 。 省 略 了 +， 就 是 节点 操作 符 ADDI。 这 种 约定 使 我 们 能 在 
图 和 上 下 文中 很 好 地 分 清 分 析 树 和 dag。 类 型 后 级 表 见 5.5 节 ， 表 5-1 给 出 了 每 个 操作 符 可 搭配 
的 后 缀 形式 。 

K 8-1 列 出 了 除 表 5-1 以 外 抽象 语法 树 中 可 以 出 现 的 其 他 6 类 操作 符 。AND、OR 和 NOT 分 
别 代 表 &&、|| 和! 操作 。 逗 号 表达 式 生成 RIGHT 树 ， 通 过 定义 可 知 ，RIGHT 从 左 至 右 计算 其 
参数 的 值 ，RIGHT 的 结果 就 是 其 最 右边 操作 数 的 值 。RIGHT 也 能 生成 逻辑 上 具有 两 个 以 上 操作 
数 的 树 ， 例 如 COND 操作 符 。COND 能 表示 形 如 ce, : e 的 条 件 表达 式 ，COND 树 的 第 一 个 操作 
数 是 c， 第 二 个 操作 数 是 一 棵 含 e File, 的 RIGHT 树 。RIGHT 树 也 可 表示 e++ 这 样 的 表达 式 。 这 
些 操 作 符 仅 在 编译 器 前 端 使 用 ， 因 而 不 需要 也 不 能 带 类 型 后 级。 FIELD 操作 符 表示 对 位 域 的 引用 。 


表 8-1 BRIER 
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抽象 语法 树 与 dag 有 很 多 相同 的 操作 符 ， 但 是 表 5-1 中 总 结 的 关于 操作 数 个 数 和 符号 的 规则 
只 针对 dag。 前 端 生成 树 时 不 受 这 些 规则 的 限制 ， 并 且 经 常 使 用 dag 所 没有 的 其 他 操作 数 和 符号 。 
例如 ， 为 函数 调用 的 参数 生成 树 时 ， 使 用 ARG 节点 中 的 kid[1] 域 建立 参数 列表 ， 并 将 生成 的 树 
存 人 kid[0]。 

函数 tree 实现 树 的 分 配 、 初 始 化 和 返回 : 


(tree.c functions) = 144 
Tree tree(op, type, left, right) 
int op; Type type; Tree left, right; { 
Tree p; 


NEWO(p, where); 
p->0p = Op; 
p->type = type; 
p->kids[0] = left; 
p->kids[1] = right; 
return p; 

} 


(tree.c data)= 118 
static int where = STMT: 
树 的 空间 分 配 在 由 变量 where 指定 的 分 配 区 中 ，where 总 指向 STMT 分 配 区 。 每 分 析 完 成 一 条 语 
AJ, STMT 中 就 有 大 量 的 数据 被 释放 。 但 是 ， 在 某 些 情况 下 ， 即 使 超出 当前 语句 的 编译 范围 ， 也 
必须 将 整个 表达 式 的 树 存 储 在 STMT 中 以 备 后 用 。 比 如 for 循环 中 的 自 增 表 达 式 就 是 一 个 例子 。 
这 些 表达 式 的 分 析 都 可 通过 调用 texpr 函数 实现 ， 调 用 时 带 上 指向 分 配 区 的 参数 。 


(tree.c functions) += (14 118 


iw 


Tree texpr(f, tok, a) Tree (*f) ARGS(Cint)); int tok, a; { 
int save = where; 
Tree p; 


where = a; 
p = (*f) (tok); 
where = save; 
return p; 

3 


函数 texpr 先 保存 where， 然 后 将 where 设置 成 a， 接 着 调用 分 析 函 数 (*f)(tok)， 再 恢复 where 先 
前 的 值 ， 最 后 返回 树 *f。 

tree.c 还 包括 其 他 函数 ， 它 们 用 于 构建 、 测 试 和 处 理 树 及 操作 符 。 因 为 对 少数 操作 符 而 言 ， 前 
端 只 生成 dag， 并 不 建立 树 ， 因 此 这 些 函数 不 是 修改 已 有 的 树 ， 而 是 重新 生成 新 的 树 。rightkid(p) 
iR [5] — 28 REA RIGHT 树 中 最 右边 的 非 RIGTH 操作 数 。 当 p->type==ty 时 ，retype(p,ty) 返回 p, 
否则 返回 ty 类 型 的 p 的 副本 。 当 p 包含 一 个 CALL 树 时 ，hascall(p) 返回 1， 否 则 为 0。 
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generic(op) 返回 op 的 一 般 操 作 符 ; optype(op) 返回 op 的 类 型 后 级 ; opindex(op) 返回 op 的 操 
作 符 索引 ， 即 将 通用 操作 符 映射 到 一 个 连续 范围 内 的 整数 ， 以 标识 该 操作 符 。 


8.2 ”表达 式 分 析 
EA 41 种 操作 符 ， 分 成 15 个 优先 级 。 如 果 采 用 7.2 WENK EBNF 文法 ， 即 为 每 个 

优先 等 级 引入 一 个 非 终结 符 ， 然 后 为 每 个 非 终结 符 编写 分 析 程 序 ， 这 样 做 虽然 正确 ， 但 显得 过 于 
繁杂 。 本 节 将 介绍 一 种 重要 的 简化 方法 ， 它 能 精简 文法 以 及 最 后 生成 的 代码 。 

考虑 下 面 关于 7.4 节 文 法 的 简化 表述 ， 它 描述 了 C 语言 的 一 小 部 分 表达 式 。 

expr: term { + term } 

term: factor { * factor } 

factor: ID | '(' expr')' 
可 以 根据 表 7-1 直接 写 出 该 文法 的 分 析 函 数 。 例 如 ， 我 们 采取 下 面 的 步 又 对 非 终结 符 expr 的 分 析 
函数 expr (不 带 语义 ) 进行 简化 : 

T (expr) 

T(term { + term }) 


T(term) T({ + term }) 
term(); T({ + term }) 


term(); while (t == '+') { T(+ term) } 

term(); while (t == '+') { T(+) T(term) } 

term(); while (t == '+') { t = gettok(); T(term) } 
term; while (t == '+') { t = gettok(); term); } 


同样 ， 非 终结 符 term 的 分 析 函 数 term 是 : 
factor(); while (t == '*') { t = gettok(); factor(); } 
factor 是 一 个 基础 函数 ， 用 来 处 理 基 本 表达 式 : 


void factor(void) { 

if (t == ID) 
t = gettok(); 

else if (t == '(') { 
t = gettok(); 
exprQ); 
expect(')'); 

} else 
error("unrecognized expression\n"); 


这 个 文法 具有 两 个 优先 级 。 一 般 来 说 ，n 个 优先 级 就 对 应 n+l 个 非 终结 符 ， 每 个 非 终结 符 对 
应 一 个 优先 级 ， 再 加 上 一 个 非 终结 符 对 应 基本 项 一 一 文法 的 最 小 单位 ， 不 能 再 细 分 。 这 样 必然 要 
构造 n+l 个 函数 与 非 终 结 符 一 一 对 应 。 假 设 二 元 运算 符 都 采用 左 结合 ， 这 些 函 数 实际 上 非常 相 
似 。 比 较 两 个 函数 expr 和 term 就 可 以 看 出 ， 函 数 之 间 的 主要 区 别 仅 在 于 处 理 的 操作 符 与 调用 的 
子 函 数 不 同 。 假 设 优先 级 为 k IERRA RROA k, WRR k 将 调用 函数 k+ 

利用 这 种 相似 性 ， 我 们 能 编写 一 个 单独 的 函数 以 及 一 张 按 等 级 递增 排列 的 操作 符 表 ， 蔡 代 
前 面 的 函数 1 到 函数 mn。lcc 利用 单词 编码 作为 索引 ， 将 优先 级 存储 在 一 个 数组 中 。 表 8-2 列 出 
了 C 语 言 所 有 操作 符 的 优先 级 和 结合 顺序 。prec[t 代表 单词 编码 为 t 局 ese R 例如 ， 
prec['+"] 等 于 12，prec[LEQ] 等 于 10。 利 用 数组 prec 并 假定 它 只 包含 -、+、*、/ 、%， 那 么 上 


116 # 8# 


面 给 出 的 expr 和 term 就 能 用 下 面 的 函数 替换 : 
void exprCint k) { 


expr(k + 1); 

while (prec[t] == k) { 
t = gettok(); 
expr(k + 1); 


} 
} 
函数 中 的 13 KAA 8-2; 二 元 运算 符 + 和 一 的 优先 级 为 12，*、/ 和 % 的 优先 级 为 13。 当 k 超 过 
13 时 ， 函 数 expr 调用 factor 来 分 析 factor 的 产生 式 。 分 析 受 限 文法 时 ， 首 先 调用 的 是 expr(12)， 
factor 中 对 expr 的 调用 必须 改 成 调用 expr(12)。 
表 8-2 ”操作 符 优先 级 、 结 合 顺序 和 分 析 函 数 


优先 级 分 析 函 数 





本 expr 
<<= >>= 
3 expr2 
4 expr3 
5 expr3 
站 expr3 
7 expr3 
gk ES ea hd WPA RR expr3 
i TRA a as a expr3 
10 A a expr3 
1 expr3 
12 expr3 
13 左 结合 MI i arte we) expr3 
ee So YS 
14 左 结合 = FEHR unary 
sizeof 类 型 转换 


| 
| 
| 
| 
a 
Ol 


15 postfix 


用 expr 和 factor 能 处 理 任何 形 如 expr: expr@expr | factor 的 表达 式 ，@ 表示 任何 二 元 左 结合 
的 操作 符 。 如 果 要 在 文法 中 增加 一 些 操 作 符 ， 只 需 对 prec 做 适当 的 初始 化 。 

函数 expr 中 的 while 循环 可 处 理 左 结合 操作 符 ， 而 在 EBNF 文法 中 ， 这 是 通过 expr 和 term 
的 产生 式 来 说 明 的 。 右 结合 的 操作 符 ( 比 如 赋值 )， 在 EBNF 中 的 产生 式 形式 为 ， 

asgn: expr = asgn 
前 面 的 方法 也 可 处 理 这 两 种 语句 ， 但 是 在 expr 的 while 循环 中 应 该 调用 expr(k) 而 不 是 expr(k+1)。 
假定 每 个 优先 级 的 所 有 操作 符 具 有 相同 的 结合 属性 ， 那 么 我 们 就 能 以 表格 的 形式 确定 每 个 优先 级 
到 底 是 调用 expr(k) 还 是 expr(ktl)， 接 着 只 要 分 别 写 出 左 结合 和 右 结 合 操作 的 分 析 函 数 ， 或 者 为 
每 个 操作 符 编 写 一 段 显 式 的 测试 代码 就 可 以 了 。 
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一 元 操作 符 也 适用 于 这 种 方法 。 幸 运 的 是 ，C 语言 中 的 一 元 操作 符 都 具有 高 优先 级 ， 因 此 它 
NHR factor 一 样 出 现在 函数 n+l 中 ， 否 则 在 函数 expr 入 口 处 就 必须 先 对 第 k 级 的 一 元 操作 符 进行 
检查 。 

使 用 这 种 方法 ， 与 大 多 数 中 间 优 先 级 的 操作 符 对 应 的 非 终 结 符 都 可 省 略 ， 因 此 也 能 简化 描述 
表达 式 的 文法 。 


8.3 C 语言 表达 式 的 分 析 
下 面 是 有 关 C 语言 表达 式 的 完整 语法 : 


expression: 
assignment-expression { , assignment-expression } 


assignment-expression: 
conditional-expression 
unary-expression assign-operator assignment-expression 


assign-operator: 
one of = += -= *= /= %= <<= >>= & A= |= 


conditional-expression: 
binary-expression [ ? expression : conditional-expression ] 


binary-expression: 
unary-expression { binary-operator unary-expression } 


binary-operator: 
one of || && '|' A & == l= <> <= >= << >> +-* /% 


unary-expression: 
postfix-expression 
unary-operator unary-expression 
‘(' type-name ')' unary-expression 
sizeof unary-expression 
sizeof '(' type-name')' 


unary-operator: 

one of ++ -- &* +- ~ } 
postfix-expression: 

primary-expression { postfix-operator } 
Postfix-operator: 


‘L’ expression "] 

'C' [ assignment-expression { , assignment-expression } ] ')' 
. identifier 

-> identifier 

十 十 


primary-expression: 
identifer 
constant 
string-literal 
'(" expression ')' 
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文法 中 共有 7 个 以 -expression 结尾 的 非 终结 符 ， 例 如 assignment-expression， 每 个 非 终结 符 
对 应 一 个 表达 式 分 析 函 数 。 其 中 ，binary-expression 可 以 采用 8.2 节 介 绍 的 技术 ， 该 技术 能 够 处 理 
任何 4 到 13 级 之 间 ( 见 表 8-2) 的 二 元 操作 符 。 
每 个 函数 对 有 效 的 表达 式 进行 分 析 ， 生 成 表达 式 的 语法 分 析 树 ， 并 且 对 树 做 类 型 检查 ， 最 
后 返回 生成 的 树 。 函 数 中 用 到 3 个 数组 ， 每 个 数组 以 单词 编码 作为 下 标 索 引 ， 指 导 函 数 的 各 种 
操作 。prec[t] 给 出 了 单词 编码 t 对 应 的 操作 符 的 优先 级 (具体 参见 8.2 节 )。oper[t] 给 出 了 单词 编 
码 t 对 应 的 通用 操作 符 树 。optree[4] 指向 为 t 对 应 的 操作 符 构 造 分 析 树 的 函数 。 例 如 ，prec['+1] 等 
F12, oper[' +] 是 ADD, optree['+'] 表示 函数 addtree。 这 些 数组 与 大 多 数 optree 会 引用 到 的 函 
数 一 样 ， 都 包含 在 enode.c Ho prec 和 oper 的 定义 引入 了 tokenh， 它 们 选用 其 中 的 第 3 栏 和 第 
4 栏 。 
(tree.c data)+= 114 129 
static char prec[] = { = 
#define xx(a,b,c,d,e,f,g) c, 
#define yy(a,b,c,d,e,f,g) c, 
#include “token.h" 
}; 
static int oper[] = { 
#define xx(a,b,c,d,e,f,g) d, 
#define yy(a,b,c,d,e,f,g) d, 
#include "token.h" 
}; 
token.h 见 6.2 47 . 
每 个 函数 都 可 用 7.5 节 描 述 的 规则 导出 。 实 际 上 ， 构 造 树 代码 以 及 对 树 进行 检查 的 代码 交叉 
出 现在 分 析 代 码 中 。 非 终结 符 expression 的 分 析 代 码 具有 代表 性 ， 而 且 也 是 最 简单 的 。 
(tree.c functions) += (14 119 
Tree expr(tok) int tok; { = 


static char stop[] = { IF, ID, '}', 0 }; 
Tree p = expri(0); 


while (t == ',') { 
Tree q; 
t = gettok(); 
q = pointer(expr1(0)); 
p = tree(RIGHT, q->type, root(value(p)), q); 


(test for correct termination 119 ) 
return p; 
} 
expr 首先 调用 exprl, expr] 4} #f assignment-expression， 并 返回 表达 式 的 分 析 树 (具体 参见 8.4 
节 )。while 循环 处 理 assignment-expression 产生 式 的 


{ , assignment-expression } 


部 分 ， 为 每 个 逗号 操作 符 生 成 一 棵 RIGHT 树 。 函 数 pointer 和 value 检查 作为 参数 的 树 的 语义 正 
确 性 ， 或 者 返回 参数 树 的 变换 结果 (后 面 将 给 出 函数 的 代码 )。 在 练习 12.9 中 函数 root 可 以 处 理 
那些 只 起 副作用 的 树 。 
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当 expr 的 参数 不 为 零 时 ， 它 表示 可 以 跟 在 当前 expression 之 后 的 单词 编码 。 

(test for correct termination 119)= 118 120 

if (tok) 
test(tok, stop); 

如 果 tok 不 为 零 ， 但 表达 式 后 跟 有 其 他 文法 符号 ， 那 么 函数 test 会 跳 过 若干 个 输入 符号 直至 下 一 
个 tok 或 是 遇 到 stop 中 的 单词 ， 集 合 stop X tok U {IF ID'}"} (参见 7.6 节 )。 许 多 分 析 函 数 都 使 用 
这 种 约定 ， 能 有 效 地 检查 和 处 理 错 误 。 每 个 expression 后 面 必须 跟着 它 的 FOLLOW 集合 中 的 单 
词 。 但 在 多 数 应 用 中 ， 能 够 跟 在 expression 后 面 的 单词 只 有 一 个 。 例 如 ，for 循环 的 增 量 表达 式 后 
面 只 能 跟 有 一 个 右 括 号 。 因 此 ，expr 不 是 对 FOLLOW 集合 中 的 单词 逐个 检查 ， 而 只 是 查找 集合 
中 的 某 个 元 素 ; 这 种 方法 更 精确 一 些 。 在 具体 上 下 文中 ， 如 果 有 几 个 单词 能 跟 在 某 个 expression 
后 面 ， 就 调用 expr(0) 检查 下 一 个 输入 单词 的 合法 性 。 

语句 级 表达 式 ， 比 如 赋值 和 函数 调用 ， 会 产生 副作用 。 


(tree.c functions) += 
Tree exprO(tok) int tok; { 
return root(expr(tok)); 
} 


exp0 调用 expr 分 析 表 达 式 ， 将 结果 分 析 树 作为 参数 传递 给 函数 root, root 只 返回 具有 副作用 的 
树 。 例 如 ,语句 a+f0 中 的 加 法 运算 是 无 用 的 ，lcc 消除 了 这 种 无 用 的 加 法 运算 (即使 加 法 运算 可 
能 导致 溢出 )。 如 果 将 该 表达 式 的 分 析 树 传递 给 root， 则 root 返回 fO 的 分 析 树 。 函 数 root 见 练 
212.9; 


8.4 赋值 表达 式 


assignment-expression 的 第 二 个 候选 式 中 包含 右 递归 ， 使 赋值 操作 为 右 结合 。 比 如 它 将 a=b=c 
这 样 的 多 重 赋值 语句 解释 为 a=(b=c)。 而 用 产生 式 


assignment-expression: 
unary-expression { assign-operator conditional-expression } 


则 是 错误 的 ， 因 为 它 将 多 重 赋 值 表 达 式 解释 为 左 结合 ， 即 (a=b)=c。 这 种 解释 导致 赋值 的 结果 不 
是 左 值 。 
函数 exprl 分 析 赋 值 表达 式 : 


(tree.c functions) += 119 120 
Tree expri(tok) int tok; { 


>? 
= 
© 


4 


static char stop[] = { IF, ID, 0 }; 
Tree p = expr2(); 


if (t == ‘=' 
|| Cprec(t] >= 6 && prec[t] <= 8) 
|| Cprec({t] >= 11 && prec[t] <= 13)) { 
int op = t; 
t = gettokQ); 
if Coperfop] == ASGN) 
p = asgntree(ASGN, p, value(expr1(0))); 
else 
(augmented assignment 120) 


120 REE 


(test for correct termination | 19 ) 
return p; 


函数 expr2 分 析 conditional-expression : 
conditional-expression: 
binary-expression [ ? expression : conditional-expression ] 
函数 exprl 的 代码 并 不 是 严格 地 遵照 文法 ; assignment-expression 的 两 个 候选 式 都 需要 调用 
函数 expr2 处 理 ， 即 使 处 理 第 二 个 候选 式 时 要 调用 函数 unary。expr2 最 终 会 调用 unary， 上 面 的 
分 析 代 码 可 以 识别 所 有 正确 的 表达 式 ， 也 能 接受 不 正确 的 表达 式 ， 但 是 通过 函数 asgntree 的 语义 
分 析 可 以 找 出 错误 的 表达 式 。 这 种 赋值 表达 式 的 分 析 方 法 具有 强大 的 错误 处 理 能 力 。 举 例 来 说 ， 
atb=c 中 的 a+b 不 是 unary-expression， 较 严格 的 分 析 器 分 析 时 将 在 + 处 标记 错误 ， 由 于 不 能 完整 
地 分 析出 整个 表达 式 ， 因 而 可 能 还 会 出 现 其 他 的 错误 标记 。 虽 然 lcc 可 以 接受 该 表达 式 而 不 报告 
语法 错误 ， 但 是 如 果 赋 值 语句 的 左 部 不 是 一 个 左 值 ，lcc 会 进行 警告 提示 。 
函数 exprl 的 第 一 个 让 语句 测试 赋值 号 (=) 或 者 扩展 赋值 运算 符 的 首 字符 ( 见 表 8-2 )。 
oper[op] 代表 这 些 字符 所 对 应 的 通用 树 操作 符 ， 比 如 ，oper['+'] 表示 ADD。exprl 能 够 处 理由 两 个 
单词 构成 的 扩展 赋值 运算 符 ， 如 +=。 
(augmented assignment 120)= 119 
expect('='); 


p = incr(op, p, expri(0)); 
} 


每 个 扩展 赋值 操作 符 都 是 一 个 单词 ; 但 上 述 代码 将 它们 视 为 两 个 单词 。 下 面 介绍 的 函数 expr3 就 
能 避免 这 类 错误 的 解释 ， 函 数 只 有 确认 了 像 + 这 样 的 单词 后 没有 跟随 等 号 时 才 认 为 它们 是 二 元 操 
作 符 。 因 而 ，exprl 能 够 解释 a+=b 中 的 扩展 赋值 操作 符 ， 并 通过 expr3 找 出 a+=b 中 存在 的 错误 。 
函数 incr 为 形 如 v@=e 的 表达 式 生成 树 ， 这 里 @ 表示 任意 二 元 操作 符 ，v 表示 左 值 ，e 表示 
右 值 。 
(tree.c functions)+= ifo 121 


Tree incr(op, v, e) int op; Tree v, e; { 2 
return asgntree(ASGN, v, (*optree[op])(oper[op], v, e)); 


前 端 调用 incr 并 不 生成 树 ， 而 是 建立 一 个 dag。 图 8-2 表示 incr 为 表达 式 *O+=b 生成 的 分 析 树 。 
*f() 仅 计算 一 次 ， 但 它 计 算 的 结果 作为 左 值 却 使 用 了 两 次 ， 一 次 是 取 对 应 的 右 值 ， 一 次 是 作为 赋 
值 的 目标 。lcc 为 *f() 单独 建立 一 棵 树 就 反映 了 这 一 语义 。 需 要 指出 的 是 ， 这 类 扩展 赋值 语句 的 
树 需 要 用 到 临时 变量 ， 这 些 临时 变量 在 将 树 转换 成 节点 时 生成 ， 详 见 第 12 章 。 


ASGN+I 
es 
worker | dou 
l p 
CALL+P INDIR+I 
ADDRG+P ADDRG+P 
f b 


8-2 *f0+=b 的 分 析 树 
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也 可 以 不 用 dag， 而 使 用 额外 的 树 操作 符 表示 扩展 赋值 语句 。 但 这 样 会 增加 树 操作 符 的 数目 ， 
使 得 相关 的 二 元 操作 符 的 语义 分 析 过 程 复 杂 化 。 例 如 执行 + 的 语义 分 析 的 函数 addtree， 必 须 同 
时 处 理 + 和 +=。 在 其 他 地 方 也 会 使 用 dag， 例 如 9.3 节 描述 的 关于 肉 套 函数 的 处 理 。 


8.5 ”条件 表达 式 
条 件 表达 式 的 语法 形式 为 : 


conditional-expression: 
binary-expression [ ? expression : conditional-expression | 


当 binary-expression 不 为 0 时， 条 件 表达 式 的 值 即 是 expression 的 值 ， 否 则 它 的 值 等 于 第 三 个 操 
作 数 的 值 。 第 三 个 操作 数 本 身 也 可 以 是 conditional-expression, lcc 用 expr2 实现 这 个 语法 分 析 
过 程 : 


(tree.c functions)+= 120 | 2 
static Tree expr2() { 
Tree p = expr3(4); 


DF Ce ee 729 
Tree 1, r; 
Coordinate pts[2]; 
if (Aflag > 1 && isfunc(p->type)) 
warning("%s used in a conditional expression\n", 
funcname(p)); 
p = pointer(p); 
t = gettok(); 
pts[0] = src; 
1 = pointer(expr(':')); 
pts[1] = src; 
r = pointer(expr2Q()); 
p = condtree(p, 1, r); 
if (events.points) 
{plant event hooks for ?:) 


return p; 


expr2 首先 调用 expr3 来 分 析 优 先 级 大 于 4 的 binary-expression， 最 后 调用 condtree 生成 COND 树 
( 见 图 9-6 ) 。 

站 语句 和 条 件 表达 式 常 见 的 一 个 错误 是 用 函数 名 替代 函数 调用 。 例 如 ， 使 用 表达 式 test?a:b 
替代 表达 式 test(a，b)?a:b。 这 两 个 表达 式 都 合法 ,但 程序 员 很 少 会 真正 有 意 使 用 第 一 个 表达 式 。 
lec 的 -A 选项 能 对 这 类 可 疑 的 使 用 发 出 警告 。Aflag 记录 -A 选项 的 数目 。 多 次 出 现 -A 选项 将 引 
发 更 多 的 警告 。 

loc 能 够 在 源 程序 的 控制 流 分 支点 处 执行 事件 钩子 (event hook)。 使 用 这 一 功能 ， 能 够 插入 树 
实现 表达 式 级 的 执行 剖面 (profling)， 或 者 为 源 代 码 级 的 调试 程序 插入 数据 。 改 变 控制 流 的 操作 
符 有 3 种 ，?: 是 其 中 的 一 种 。 建 立 事件 钧 子 的 函数 参数 应 包含 表达 式 中 then 和 else 部 分 的 源 坐 
br, 在 上 面 的 程序 中 ，pts[0] 和 pts[1] 保存 了 这 些 坐 标 。 
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条 件 表达 式 也 可 以 用 来 将 控制 流 表 示 的 关系 表达 式 转 换 为 一 个 值 。 例 如 对 于 表达 式 a=b<c， 
如 果 b<c， 则 a 为 1， 否则 置 a 为 0。 函 数 value 实 现 这 种 转换 ， 生 成 与 表达 式 c?1:0 对 应 的 
COND 树 。 

(tree.c functions) += 21 123 


Tree value(p) Tree p; { 
int op = generic(rightkid(p)->op); 


if (op==AND || op==OR || op==NOT || op==EQ || op==NE 
I| op== LE || op==LT || op== GE || 
p = condtree(p, consttree(1, inttype), 
consttree(0, inttype)); 
return p; 


lce 的 接口 程序 指定 了 两 种 类 别 的 比较 操作 符 : 一 种 是 条 件 判断 ， 总 会 华 有 跳 转 指令 ; 男 一 
种 用 于 求 值 ， 像 a=b<c， 得 到 0 或 1。 这 种 设计 的 优点 在 于 Ice 可 以 直接 通过 指令 获得 比较 的 结 
果 ， 避 免 隐 含 在 c?1:0 中 的 跳 转 。 但 是 只 有 当 目标 机 包含 这 类 指令 ， 并 且 跳 转 严 重 影响 性 能 时 ， 
才 可 以 从 这 种 方法 中 获得 好 处 ， 其 他 的 目标 机 必须 考虑 增加 操作 符 带 来 的 影响 。 只 指定 条 件 形 式 
的 比较 操作 可 能 会 牺牲 一 点 灵活 性 ， 但 可 以 获取 更 多 的 可 重 定 目标 性 。 


8.6 二 元 表达 式 
所 有 优先 级 在 4 到 13 之 间 的 二 元 操作 符 ( 见 表 8-2 ) 的 表达 式 都 可 定义 为 如 下 产生 式 : 
binary-expression: 
unary-expression { binary-operator unary-expression } 
binary-operator: 
one of || && "|" A & = != <> <= >= << >> + - * /% 


用 8.2 节 介 绍 的 函数 就 能 分 析 此 类 表达 式 。 使 用 该 技术 ，binary-expression 的 分 析 函 数 (不 含 
生成 树 的 代码 ) 为 : 
void expr3(k) int k; { 
if (k > 13) 
unaryQ); 
else { 
expr3(k + 1); 
while (prec(t] == k) { 
t = gettok(); 
expr3(k + 1); 
} 
} 
} 


函数 unary 分 析 unary-expression。 上 述 代码 除了 能 正确 分 析 binary-expression 外 ， 还 能 完成 其 他 
工作 。expr2 调用 expr3(4)， 这 是 在 expr3 本 身 之 外 对 expr3 唯一 的 外 部 调用 。 在 第 一 次 调用 unary 
之 前 ， 从 expr3(5) 到 expr3(14)， 执 行 10 次 递归 。 在 分 析 源 表 达 式 时 ， 这 10 个 递归 调用 按 优先 级 
从 高 到 低 依 次 展开 。 当 有 某 个 k 与 prec[tj 相等 时 ， 即 { 是 跟 在 由 unary 分 析 的 表达 式 后 的 单词 ， 
代码 进入 while 循环 。 多 次 递归 调用 expr3 只 是 为 了 测试 当前 的 k 是 否 等 于 prec[t]， 只 有 一 次 调 
用 能 满足 条 件 。 
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例如 ， 表 达 式 a| b 的 递归 调用 序列 是 : 
expr3(4) 
expr3(5) 
expr3(6) 
expr3(7) 
expr3(8) 
expr3(9) 
expr3(10) 
expr3(11) 
expr3(12) 
expr3(13) 
expr3(14) 
unaryQ 
expr3(7) 
expr3 (14) 
unary C) 


在 第 一 次 调用 unary 之 前 (tnary 分 析 a) 的 所 有 调用 中 ， 只 有 expr3(6) 在 unary 返回 后 执行 有 意 
义 的 动作 。 在 while 循环 中 产生 的 对 expr3 的 递归 调用 ， 会 导致 第 二 次 调用 unary， 但 所 有 这 些 递 
归 调 用 都 不 执行 有 意义 的 动作 。 

从 此 递归 序列 可 看 出 expr3 的 作用 : 首先 分 析 unary-expression， 然 后 按照 优先 级 13， 
12，…，4 的 顺序 处 理 binary-expression。 采 用 递减 计数 的 方法 ,我们 可 以 去 掉 一 些 递 归 。 从 上 面 
的 执行 情况 可 知 ， 只 有 当 优 先 级 与 prec[t] 相同 时 程序 才 真正 有 作用 ， 因 而 计数 就 从 满足 此 条 件 的 ， 
地 方 开始 : 


void expr3(k) int k; { 
int k1; 
unary(); 
for (kl = prec[t]; kl >= k; k1--) 
while (prec(t] == k1) { 
t = gettok(); 
expr3(k1 + 1); 


} 
采用 这 种 方法 ， 大 部 分 对 expr3 的 递归 调用 都 可 以 删除 。 这 时 ，a |b 的 分 析 过 程 变 为 : 
expr3(4) 
unary() 
expr3(7) 
unary) 


如 果 往 expr3 中 加 入 一 些 代 码 ， 使 程序 具有 生成 树 和 验证 树 有 效 性 的 功能 ， 并 且 解 决 遗留 的 扩展 
赋值 以 及 && 与 || 操作 符 这 两 个 小 问题 后 ， 形 成 了 最 终 的 expr3 程序 : - 


(tree.c functions) += 122 12; 
static Tree expr3(k) int k; { 
int ki; 


Tree p = unaryQ); 


for (kl = prec[t]; kl >= k; k1--) 
while (prec[t] == kl && *cp l= '=') { 
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Tree r, 1; 
Coordinate pt; 
int op = t; 
t = gettok(); 
pt = src; 
p = pointer(p); 
if (op == ANDAND || op == OROR) { 
r = pointer(expr3(k1)); 
if (events.points) 
(plant event hooks for && ||) 
} else 
r = pointer(expr3(k1 + 1)); 
p = (*optree[op])(oper[op], p, r); 


3 return p; 
与 条 件 表达 式 一 样 ， 操 作 符 && 和 TAREA, HL THE ES DAE 

从 技术 上 说 ， 操 作 符 && 和 | 是 左 结合 的 ， 必 要 时 才 计 算 右 操作 数 。 如 果 将 它们 视 为 右 结合 
操作 符 ， 就 可 以 简化 节点 的 生成 。 这 两 个 操作 符 所 属 的 两 个 优先 级 中 都 没有 其 他 操作 符 。 因 此 ， 
使 && 成 为 右 结合 ， 将 很 容易 产生 一 棵 右 重 (right-heavy) 的 ANDAND 树 ， 而 不 是 左 重 (left- 
heavy) 的 。 在 12.3 节 将 看 到 ， 这 种 显然 的 错误 不 仅 能 在 节点 产生 过 程 中 得 到 修正 ， 而 且 与 左 重 
的 树 相 比 ， 它 还 可 以 为 && 和 | 生成 更 好 的 短路 (short-circuit) 计算 代码 。 要 使 操作 符 || 能 右 结 
合 ， 必 须 在 while 循环 中 调用 expr3(4) 而 不 是 expr3(5)。 对 操作 符 &&， 则 应 调 expr3(5) 而 不 是 
expr3(6)。 总 之 ， 在 while 循环 中 使 用 expr3(k1) 蔡 换 expr3(k1+1) 就 可 以 正确 处 理 这 两 个 操作 符 。 

最 后 的 问题 是 扩展 赋值 。exprl 通过 识别 双 单 词 序 列 来 判断 是 否 为 扩展 赋值 操作 符 。 但 这 些 
操作 符 都 是 以 单个 单词 组 成 的 。 并 不 是 真正 的 双 单 词 序 列 。 例 如 ，+= 表示 相 加 赋值 ; 而 += 是 一 
个 语法 错误 。exprl 中 用 到 的 识别 方法 只 有 在 += 总 不 被 认为 是 += 的 情况 下 才 有 效 。expr3 从 另 一 
方面 确保 了 这 个 条 件 成 立 ， 即 当 且 仅 当 二 元 操作 符 后 面 没有 紧 跟 = 号 时 ， 才 认为 它 是 一 个 二 元 操 
作 符 。 因 此 ， 在 a+=b 中 的 + 不 是 一 个 二 元 运算 符 ，lcc 能 有 效 地 检测 出 这 种 错误 。 


8.7 ”一 元 表达 式 和 后 缀 表达 式 


下 面 将 介绍 处 理 如 下 产生 式 的 分 析 函 数 : 


unary-expression: 

postfix-expression 

unary-operator unary-expression 

'(" type-name ')' unary-expression 

sizeof unary-expression 

sizeof '(' type-name ')' 
unary-operator: 

one of ++ -- &* +-~! 


postfix-expression: 
primary-expression { postfix-operator } 
postfix-operator: 
"C' expression '}' 
' C { assignment-expression { , assignment-expression } ] ')" 
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. identifier 
-> identifier 
++ 


其 中 primary-expression 的 产生 式 见 下 节 。 由 于 这 些 产 生 式 都 不 复杂 ， 因 此 相应 的 分 析 函 数 也 比 
较 简 单 。 比 如 分 析 unary-expression， 大 多 数 一 元 操作 的 处 理 仅 需 3 步 : 处 理 操作 符 、 分 析 操 作 
数 、 生 成 树 。 


(tree.c functions) += 123 126 
static Tree unary() { 
Tree p; 


switch (t) { 


Case. Teh: (p 一 unary125) (indirection138) break; 
case '&': (p ~ unary125) (address of 137) break; 
case '+': (p 一 unary}25) (affirmation) break; 
case '-'; (p 一 unaryi25) (negation 136) break; 
case '~': (p — unary125) (complement) break; 
case '!'; (p — unary125) (logical not) break; 


case INCR: (p — unary125) (preincrementi25) break; 
case DECR: (p+ unaryi2s) (predecrement) break; 
case SIZEOF: t = gettok(); { (sizeofi26) } break; 
case C: 
t = gettok(); 
if Cistypename(t, tsym)) { 
(type cast 138) 
} else 
p = postfix(expr(')')); 
break; 
default: 
p = postfix(primary(); 


return p; 
} 
(p ~ unary 125)= 125 
t = gettok(); p = unaryQ; 


函数 的 大 部 分 都 是 做 语义 检查 ， 下 一 章 将 详细 介绍 语义 问题 。 前 面 提 到 的 3 步 ， 即 处 理 运算 符 、 
分 析 操 作 数 和 生成 树 在 这 个 函数 里 都 能 实现 。 表 达 式 He 在 语义 上 等 价 于 扩展 赋值 et=1， 因 而 
函数 incr 能 为 ++ 生成 树 。 

(preincrement 125 ) 三 125 

p = incr(INCR, pointer(p), consttree(1, inttype)); 

前 自 减 (predecrement) 处 理 与 上 面 类 似 。 i 

sizeof ('type-name')' 得 到 一 个 size t 类 型 的 常量 ， 它 给 出 type-name 的 一 个 实例 所 占 的 字 节 
HM. TE lec 中 ，size t 是 无 符号 数 。 同 样 ，unary-expression 中 sizeof unary-expression 也 仅 能 用 于 
提供 大 小 已 知 的 类 型 ; unary-expression 并 不 在 运行 时 计算 。 分 析 sizeof 的 代码 主要 的 工作 就 是 
区 分 上 面 这 两 种 sizeof 形式 ， 并 找 出 相应 的 类 型 。 注 意 ， 如 果 操 作 数 是 type-name， 则 必须 加 上 
括号 。 
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(sizeof 126)= 125 
Type ty; 
p = NULL; 
if Ct om '('){ 
t = gettok(); 
if Cistypename(t, tsym)) { 
ty = typename(); 
expect(')')5 
} else { 
p = postfix(expr(')')); 
ty = p->type; 
} 
} else { 
p = unary(); 
ty = p->type; 
} 
if Cisfunc(ty) || ty->size == 0) 
error("invalid type argument '%t' to "sizeof'\n", ty); 
else if (p && rightkid(p)->op == FIELD) 
error("'sizeof' applied to a bit field\n"); 
p = consttree(ty->size, unsignedtype) ; 


由 程序 可 知 ，sizeof 的 参数 不 能 是 函数 、 不 完全 类 型 和 从 位 域 中 导出 的 类 型 。 

在 unary 和 <sizeof> 中 ， 左 括号 代表 一 个 primary-expression， 或 者 如 果 它 的 下 一 个 单词 是 类 
型 名 ， 则 表示 开始 进行 类 型 转换 。 

如 果 左 括号 后 不 引入 类 型 转换 ， 此 时 调用 函数 primary 分 析 括 号 内 的 表达 式 就 晚 了 ， 因 此 
unary 必须 能 够 处 理 这 种 情况 。 这 就 解释 了 为 什么 postfix 希望 它 的 调用 者 首先 调用 primary， 将 得 
到 的 结果 树 作为 参数 传递 给 postfix， 而 不 是 在 postfix 中 调用 primary. 


(tree.c functions) += (25 127 
static Tree postfix(p) Tree p; { 
for (33) 


switch (t) { 
case INCR: (postincrementi26) break; 
case DECR: (postdecrement) break; 
case '[': (subscript 139) break; 
case '(': (calls143) break; 
case Lt (struct. field) break; 
case DEREF: (pointer->field139) break; 
default: 

return p; 
} 

} 


同样 ，postfix 的 大 部 分 代码 段 是 在 检测 操作 数 的 语义 以 及 生成 相应 的 树 〈 详 见 下 章 )。 但 后 
自 增 (postincrement) 以 及 后 自 减 (postdecrement) 的 树 能 通过 incr 生成 : 


(postincrement 126) 三 126 
p = tree(RIGHT, p->type, 
tree(RIGHT, p->type, 
P, 
incr(t, p, consttree(1, inttype))), 
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2s 
t EA 
后 缀 的 ++ 使 操作 数 加 1， 但 返回 的 是 加 !1 前 的 值 ， 因 此 ++ 的 树 是 一 个 dag。 例 如 ， 表 达 式 i++ 
生成 的 树 如 图 8-3 所 示 。 两 个 RIGHT 操作 符 保证 了 计算 顺序 的 正确 性 ， 整 个 表达 式 的 值 是 i 的 右 
值 ， 低 层 的 RIGHT 树 确保 在 i 通 过 ASGN+I 树 加 1 前 对 i 的 右 值 进行 计算 和 保存 。p++ 的 树 的 结 
构 也 是 相同 的 ， 这 里 p 是 一 个 指针 。 注 意 , pH 表示 将 p 增加 ， 增 加 的 量 为 它 指向 的 对 象 的 大 小 。 
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图 8-3 itt 对 应 的 树 


8.8 基本 表达 式 
处 理 表 达 式 的 最 后 一 个 分 析 函 数 是 primary: 


primary-expression: 
identifier 
constant 
string-literal 
'C' expression ')' 


它 与 8.2 节 描述 的 简单 表达 式 语 法 的 分 析 函 数 factor 类 似 。 剩 下 需要 处 理 的 只 有 常量 和 标识 符 : 


(tree.c functions) += 126 128 
static Tree primary() { 
Tree p; 


switch (t) { 
case ICON: 
case FCON: (numeric constants 128) break; 
case SCON: (string constants128) break; 
case ID: (anidentifier130) break; 
default: 

error("illegal expression\n"); 

p = consttree(0, inttype); 
$ 
t = gettok() ; 
return p; 


} 
CNST 树 的 u.v 域 保存 了 整数 和 浮 点 常量 的 值 : 


128 REF 


(numeric constants 128)= 127 
p = tree(CNST + ttob(tsym->type), tsym->type, NULL, NULL); 
p->u.v = tsym->u.c.v; 

tu fields for Tree variants 128 ) 三 128 113 
Value v; 


字符 串 常 量 可 视 为 只 读 变量 的 简写 ， 这 些 只 读 变量 被 初始 化 为 字符 串 常量 的 值 : 


(string constants 128)= 127 
tsym->u.c.v.p = stringn(tsym->u.c.v.p, tsym->type->size); 
tsym = constant(tsym->type, tsym->u.Cc.v); 
if (tsym->u.c.loc == NULL) 

tsym->u.c.loc = genident(STATIC, tsym->type, GLOBAL); 
p = idtree(tsym->u.c. loc); 


生成 的 变量 及 其 初始 化 过 程 在 编译 的 最 后 由 函数 finalize 完成 ， 表 示 字 符 串 的 树 与 表示 生成 的 标 
识 符 的 树 一 样 。 

idtree(p) 生成 一 棵 树 用 于 访问 符号 表 入 口 p 所 标识 的 标识 符 。 标 识 符 根据 它们 的 作用 域 、 生 
存 期 (参数 、 自 动 局 部 变量 和 静态 变量 ， 包 括 全 局 变量 ) 以 及 它们 的 类 型 (数组 、 函 数 及 非 数 组 
对 象 ) 来 分 类 。 函 数 idtree 根据 标识 符 的 作用 域 和 存储 类 别 来 决定 需要 的 地 址 操作 符 。 然 后 根据 
其 类 型 来 决定 访问 它 的 树 的 结构 ， 并 且 在 树 的 usym 域 存储 一 个 指向 符号 表 入 口 p 的 指针 : 


(u fields for Tree variants 128 )+= 128 144413 
Symbol sym; = 
(tree.c functions) += 127 129 
Tree idtree(p) Symbol p; { i 
int op; 
Tree e; 


Type ty = p->type ? unqual(p->type) : voidtype; 


p->ref += refinc; 

if (p->scope == GLOBAL 

I| p->sclass == STATIC |} p->sclass == EXTERN) 
op = ADDRG+P; 

else if (p->scope == PARAM) { 
op = ADDRF+P; 
if Cisstruct(p->type) && !IR->wants_argb) 

(return a tree for a struct parameter 129 ) 

} else 
op = ADDRL+P; 

if Cisarray(ty) || isfunc(ty)) { 
e = tree(op, p->type, NULL, NULL); 
e->u.sym = p; 

} else { 
e = tree(op, ptr(p->type), NULL, NULL); 
e->u.sym = p; 
e = rvalue(e); 


} 
return e; 
$ 
(tree.c data)+= 118 


float refinc = 1.0; 


RIX HK 129 


p->ref 就 是 对 p 所 标识 的 标识 符 引 用 次 数 的 估计 值 ， 其 他 函数 可 以 通过 改变 refine 的 值 来 调节 对 
p 的 引用 的 权 值 。 所 有 外 部 、 静 态 和 全 局 标识 符 都 通过 ADDRG 寻 址 ， 参 数 通 过 ADDRF 寻 址 ， 
而 局 部 变量 通过 ADDRL 寻 址 。 

数组 和 函数 不 能 直接 用 作 左 值 或 右 值 ， 所 以 只 有 专用 的 地 址 操作 符 才 能 引用 它们 。 其 他 类 型 
的 树 引 用 标识 符 的 右 值 。 例 如 图 8-3 所 描述 的 i 的 右 值 树 。 函 数 rvalue 加 上 INDIR: 


(tree.c functions)+= {28 129 
Tree rvalue(p) Tree p; { 
Type ty = deref(p->type); 


ty = unqual(ty); 
return tree(INDIR + (isunsigned(ty) ? I : ttob(ty)), 
ty, p, NULL); 


rvalue 的 参数 可 以 是 任何 一 棵 表示 指针 值 的 树 ， 而 函数 lvalue 的 参数 只 能 是 表示 右 值 (一 个 可 寻 
址 位 置 的 内 容 ) 的 树 。 由 函数 rvalue 生成 的 INDIR 树 也 表明 了 这 棵 树 是 一 个 有 效 的 左 值 ， 并 且 左 
值 的 地 址 可 以 通过 消除 INDIR 444o pA lvalue 实现 了 这 种 检查 和 转换 : 
(tree.c functions) += 129 132 
Tree lvalue(p) Tree p; { 
if (generic(p->op) != INDIR) { 
error("lvalue required\n"); 
return value(p); 
} else if Cunqual(p->type) == voidtype) 


warning("'%t' used as an Ivalue\n", p->type); 
return p->kids[0]; 


结构 参数 的 树 还 依赖 于 接口 域 wants _argb 的 值 。 如 果 wants argh 等 于 1， 则 上 面 所 示 的 代码 
就 构建 相应 的 分 析 树 ， 如 果 参 数 为 x， 这 棵 树 的 形式 就 是 (INDIR+B(ADDRF+P x))。 如 果 wants_ 
argb 等 于 0， 则 编译 前 端 是 这 样 实现 结构 参数 的 : 即 通过 在 调用 中 复制 参数 副本 ， 并 传递 指向 该 
副本 的 指针 。 这 样 ， 对 一 个 结构 参数 的 引用 就 需要 通过 另 一 个 间接 访问 来 访问 结构 本 身 : 


(return a tree for a struct parameter 129) 三 128 
{ 
e = tree(op, ptr(ptr(p->type)), NULL, NULL); 


e->u.sym = p; 
return rvalue(rvalue(e)); 


对 于 参数 x， 上 段 代 码 构建 树 : 


(INDIR+B CINDIR+P (ADDRF+P x))) 


如 果 需 要 使 用 标识 符 树 ， 就 要 用 到 函数 idtree， 例 如 对 于 字符 串 常 量 和 标识 符 : 


130 BEE 


(an identifier 130) = 127 
if (tsym == NULL) 
(undeclared identifier) 
if (xref) 
use(tsym, src); 
if (tsym->sclass == ENUM) 
p = consttree(tsym->u.value, inttype); 
else { 
if (taye-tucleas == TYPEDEF) 
error("illegal use of type name ‘%s'\n", tsym->name); 
p = idtree(tsym); 
} 


如 果 tsym 为 空 ， 则 标识 符 没 有 声明 ， 如 果 它 又 不 是 一 个 函数 调用 ， 这 就 会 报错 ( 见 练习 8.5). 
枚 举 标识 符 代 表 的 是 常量 ， 它 将 产生 常量 树 ， 而 不 是 标识 符 树 。 


深入 阅读 

在 编译 器 领域 ， 用 一 个 分 析 函 数 代 替 n 个 函数 来 处 理 n 级 优先 级 是 非常 流行 的 ， 但 是 对 于 
这 种 技术 的 解释 却 很 少 。Hanson (1985) 介绍 了 这 种 技术 及 其 在 lcc 中 的 使 用 情况 。Holzmann 
(1988 ) 在 其 图 像 处 理 语言 pico 中 使 用 了 类 似 的 技术 。 从 技术 上 说 ， 这 种 技术 等 价 于 在 BCPL 


(Richards and Whitby-Strevens, 1979) 中 使 用 的 技术 ,但 是 在 BCPL 中 ， 操 作 符 以 及 操作 符 的 优 
先 级 和 结合 方式 都 分 散在 BCPL 的 整个 代码 中 ， 而 不 是 存储 在 表格 中 。 


练习 
8.1 实现 
(tree.c exported functions) = 130 


extern Tree retype ARGS((Tree p, Type ty)); 


如 果 p->ty—ty, WEE] p， 否 则 返回 ty 类 型 的 p 的 副本 。 记 住所 有 的 树 操作 函数 都 可 以 使 用 该 函数 。 
8.2 ”实现 


(tree.c exported functions)+= 130 130 
extern Tree rightkid ARGS((Tree p)); 


该 函数 返回 以 p AAT AK RIGHT 树 中 最 右边 的 非 RIGHT 操作 数 。 不 要 忘记 RIGHT 节点 可 以 有 
一 个 或 者 两 个 操作 数 (但 不 能 是 0 个 )。 
8.3 ”实现 


(tree.c exported functions) += 130 
extern int hascall ARGS((Tree p)); 


WR p 包含 一 棵 CALL 树 ,， 返回 值 为 1， 否则 返回 值 为 0。 不 要 忘记 接口 标志 mulops calls. 
8.4 利用 8.6 节 开 始 部 分 介绍 的 直接 方式 重新 实现 ont 函数 ， 并 测试 它 的 性 能 。 你 认为 去 除 递归 调用 后 获 
得 的 好 处 是 否 值得 ? 
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8.5 完成 8.8 节 所 用 的 <undeclared identifier> 代码 。 如 果 标 识 符 被 用 作 一 个 合法 函数 ， 当 前 作用 域 和 
externals 表 就 隐 式 地 声明 了 该 标识 符 ， 和 否则 就 会 对 未 声明 的 标识 符 报错 。 因 此 对 标识 符 的 隐 式 声明 十 
分 有 用 ， 可 以 使 得 编译 继续 进行 。 

8.6 如 8.4 节 所 介绍 的 ，incr 函数 返回 的 树 是 dag。 请 你 为 扩展 赋值 操作 符 增加 新 的 树 操作 符 ， 并 利用 新 增 
加 的 操作 符 重 写 incr 函数 ， 避 免 使 用 dag。 你 需要 更 改 函 数 listnodes， 可 能 还 得 改变 enode.c 中 的 语义 
函数 。 
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表达 式 语义 





表达 式 必 须 在 语法 和 语义 上 都 是 正确 的 。 上 一 章 介 绍 的 分 析 函 数 所 处 理 的 是 语法 问题 和 一 些 
简单 的 语义 问题 ， 例 如 为 常量 和 标识 符 构建 抽象 语法 树 。 本 章 专门 介绍 为 表达 式 构 建树 时 必须 要 
做 的 语义 分 析 。 语 义 分 析 必 须 处 理 难度 相当 的 3 个 子 问 题 : 隐 式 转换 (implicit conversion)、 类 型 
检查 (type checking) 和 计算 次 序 (order of evaluation) 。 

隐 式 转换 就 是 那些 不 在 源 程序 中 出 现 ， 但 是 根据 标准 C 的 语义 规则 ， 必 须 被 编译 器 添加 进来 
的 转换 。 例 如 ， 对 于 表达 式 atb， 如 果 a 是 整 型 而 b 是 浮 点 型 ，atb 在 语义 上 是 正确 的 ， 但 是 必 
须 添 加 一 个 将 a 的 值 转换 为 浮 点 类 型 的 隐 式 转换 。 

类 型 检查 是 为 了 确保 操作 符 的 操作 数 的 类 型 是 合法 的 ， 并 确定 结果 类 型 以 及 应 使 用 哪 一 个 
与 类 型 相关 的 操作 。 例 如 ， 对 atb 的 类 型 检查 ， 首 先 验证 a 和 的 类 型 是 不 是 合法 的 算术 类 型 组 
合 ， 然 后 根据 a Alb 的 类 型 来 确定 结果 类 型 ， 而 结果 类 型 应 该 是 一 种 数值 类 型 。 另 外 ， 还 要 确定 
使 用 哪 一 个 与 类 型 相关 的 加 法 操作 。 在 表达 式 atb 的 例子 中 ， 经 过 类 型 检查 后 ， 表 达 式 等 价 于 
(float) atb， 并 确定 使 用 浮 点 加 法 操作 。 

编译 器 必须 遵守 标准 C 的 计算 顺序 规则 来 生成 树 。 对 于 大 多 数 操 作 符 ， 计 算 顺 序 都 没有 规 
定 。 例 如 ， 在 alit+]=i t, 无论 i 是 先 自 增 再 赋值 还 是 先 赋值 再 自 增 都 没有 规定 。 只 有 少数 的 操 
作 符 规定 了 计算 顺序 ， 例 如 在 f0&&g0 中 ,f 必 须 先 于 g 被 调用 ; 如 果 f 返 回 值 为 0， 就 没有 必 
要 再 调用 g 了 了。 类似 地 ， 在 (他 ，g0) P, f 必 须 先 于 g 被 调用 。 正 如 在 函数 expr 中 所 描述 的 ， 
RIGHT 树 很 好 地 定义 了 计算 顺序 ， 可 以 用 来 强制 指定 计算 顺序 。 


9.1 转换 


转换 函数 接受 一 个 或 多 个 类 型 并 返回 一 个 结果 类 型 ， 或 者 接受 一 棵 树 和 一 个 类 型 ， 返 回 一 
棵 经 过 相应 类 型 转换 的 树 。promote(Type ty) 就 是 前 一 类 转换 的 例子 : 它 实 现 了 整数 的 提升 。 如 
果 有 必要 ， 它 就 将 一 个 整数 类 型 ty 扩展 为 整 型 、 无 符号 整 型 或 长 整 型 。 标 准 C 规定 ， 整 数 类 型 
的 提升 应 保持 值 ， 包 括 符号 ， 而 不 是 以 无 符号 整 型 方式 保持 值 。 例 如 ， 一 个 无 符号 字符 被 提升 为 
整 型 ， 而 不 是 无 符号 整 型 。 如 果 一 个 更 小 的 整 型 (或 一 个 位 域 ) 的 所 有 值 都 可 以 用 整 型 表示 ， 则 
这 个 更 小 的 整 型 (或 位 域 ) 就 被 提升 为 整 型 。 和 否则 ， 就 会 被 提升 为 无 符号 整 型 。 在 lec 编译 器 中 ， 
整 型 必须 能 够 表示 更 小 整数 类 型 的 所 有 值 ， 所 以 在 函数 promote 中 最 后 一 个 让 语句 返回 inttype。 
函数 binary 实现 了 常规 算术 转换 (usual arithmetic conversion)， 它 以 两 个 算术 类 型 为 参数 ， 
返回 任意 二 元 算术 操作 结果 的 类 型 : 
(tree.c functions) += 129 133 
Type binary(xty, yty) Type xty, yty; { 
if Cisdouble(xty) || isdouble(yty)) 
return doubletype; 
if (xty == floattype || yty == floattype) 


return floattype; 
if Cisunsigned(xty) || isunsigned(yty)) 
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return unsignedtype; 
return inttype; 


} 
lec 编译 器 假定 double Fil long double 所 需 字 节 大 小 相同 ，long 和 int (包括 无 符号 和 有 符号 ) 所 需 
字 节 大 小 也 相同 。 这 些 假设 简化 了 标准 规定 的 常规 算术 转换 ， 因 而 简化 了 函数 binary。 在 通常 情 
ULF, long double Lt double 所 需 字 节 多 ， 而 long ML unsigned int 所 需 字 节 多 ， 下 表 总 结 了 通常 
情况 下 的 标准 规定 : 


long double 

double 

float 

unsigned long int 

long int 

unsigned int 

int 
出 现在 这 张 表 最 上 面 的 操作 数 类 型 就 是 其 他 操作 数 可 以 转换 成 的 类 型 。 如 果 没 有 指定 这 些 类 型 中 
的 某 一 个 ， 那 么 操作 数 就 被 转换 为 整 型 。 基 于 lcc 编译 器 的 假设 ， 函 数 binary 中 的 第 一 条 让 语句 
处 理 前 两 种 类 型 ， 第 二 条 证 语句 处 理 float 类 型 ， 由 于 lcc 的 signed long 不 能 表示 所 有 无 符号 类 型 
的 值 ， 所 以 需要 第 三 条 证 语句 处 理 4 种 整 型 。 

函数 pointer 用 于 处 理 第 二 类 隐 式 转换 ， 即 输入 参数 为 一 棵 树 ， 返 回 可 能 经 过 转换 后 形成 的 

树 。 当 数组 和 函数 类 型 被 用 于 表达 式 时 ， 需 要 转换 为 指针 类 型 。 例 如 ，(ARRAYT) 和 (POINTER 
T) 转换 为 (FUNCTION T) 和 (POINTER(FUNCTION T))。 


(tree.c functions) += 132 133 
Tree pointer(p) Tree p; { 
if Cisarray(p->type)) 
p = retype(p, atop(p->type)); 
else if Cisfunc(p->type)) 
p = retype(p, ptr(p->type)); 
return p; 


函数 rvalue, value 和 value 也 可 以 看 作 一 种 转换 。 而 函数 cond 就 是 函数 value 的 逆转 换 ; 它 处 理 
一 棵 可 表示 某 个 值 的 树 ， 添 加 一 个 与 0 进行 比较 的 操作 ， 从 而 将 它 转换 为 一 棵 表示 条 件 的 树 。 


(tree.c functions) += 133 134 
Tree cond(p) Tree p; { 
int op = generic(rightkid(p)->op); 


if (op == AND || op == OR || op == NOT 

|| op == EQ || op == NE 

|| op == LE [| op == LT || op == GE || op == GT) 

return p; 

p = pointer(p); 

p = cast(p, promote(p->type)) ; 

return (*optree[NEQ]) (NE, p, consttree(O, inttype)); 
} 


条 件 没有 值 ， 仅 能 用 于 通过 其 结果 影响 控制 流 ， 如 在 让 语句 中 。 当 输入 参数 的 值 非 零 时 ， 函 数 
cond 就 返回 一 棵 结果 为 真 的 树 。 


ES 


函数 cond 调用 函数 cast 将 它 的 参数 转换 为 其 提升 类 型 给 出 的 基本 类 型 。cast 实现 了 图 9-1 所 
描述 的 转换 。 图 9-1 中 的 每 一 个 箭头 都 表示 了 一 种 转换 操作 。 例 如 ， 从 I 到 DD 的 箭头 表示 了 从 
整 型 到 双 精 度 型 的 转换 ， 即 CVIHD ， 而 相反 方向 的 箭头 则 表示 了 从 双 精 度 型 到 整 型 的 转换 ， 即 
CVD+I。I 上 面 的 C 表示 有 符号 字符 类 型 ， 而 U 上 面 的 C 表示 无 符号 字符 类 型 ; 图 中 两 个 S 的 解 
释 也 同 它们 一 样 。 


一 一 Pp 


scolar 
| 


ns 口 
n—e C eae A 


图 9-1 类 型 转换 


没有 箭头 连接 的 转换 可 以 通过 组 合 已 有 的 转换 操作 来 实现 。 例 如 ,要 将 一 个 有 符号 短 整 型 s 
转换 为 浮 点 型 ， 可 以 通过 下 面 的 操作 组 合 来 实现 : 首先 将 它 转换 为 整 型 ， 然 后 转换 为 双 精 度 型 ， 
最 后 转换 为 浮 点 型 。 树 为 (CVD+F(CVIHD(CVS+I s)))。 对 无 符号 整 型 和 双 精 度 之 间 转 换 的 处 理 
有 所 不 同 ， 这 将 在 下 面 详 述 。 

对 应 于 上 面 列 出 的 3 步 ， 函 数 cast 可 分 为 3 部分。 首先 , p 被 转换 为 它 的 父 类 型 (supertype )， 
即 D、I 或 U。 如 果 有 必要 ， 接 着 转换 为 目标 类 型 的 父 类 型 。 最 后 ， 转 换 为 目标 类 型 。 


(tree.c functions) += 133 140 
Tree cast(p, type) Tree p; Type type; { 
Type pty, ty = unqual (type); 


p = value(p); 
if (p->type == type) 
return p; 
pty = unqual(p->type); 
if (pty == ty) 
return retype(p, type); 
(convert p to super(pty) 134 ) 
(convert p to super(ty) 135 ) 
(convert p to ty 136) 
return p; 


} 


如 代码 所 示 ， 这 些 转换 针对 参数 类 型 的 非 限定 形式 进行 。 函 数 super 返回 其 参数 的 父 类 型 。 
cast 的 第 1 步 就 是 将 符号 整 型 转换 为 整 型 ， 浮 点 转换 为 双 精 度 ， 指 针 转 换 为 无 符号 整 型 : 


(convert p to super(pty) 134 )= 134 
switch (pty->op) { 
case CHAR: p = simplify(CVC, super(pty), p, NULL); break; 
case SHORT: p = simplify(CVS, super(pty), p, NULL); break; 
case FLOAT: p = simplify(CVF, doubletype, p, NULL); break; 


case INT: p = retype(p, inttype); break; 
case DOUBLE: p = retype(p, doubletype); break; 
case ENUM: p = retype(p, inttype); break; 
case UNSIGNED:p = retype(p, unsignedtype); break; 
case POINTER: 


if Cisptr(ty)) { 
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(pointer-to-pointer conversion \35 ) 
} else 
p = simplify(CVP, unsignedtype, p, NULL); 
break; 


} 


函数 simplify (PAA tree — FEM, BERAE, CERTA are; 并且， 如 果 它 的 
第 一 参数 是 一 个 通用 操作 符 ，simplify 就 根据 它 的 第 一 、 第 二 操作 数 构建 与 类 型 相关 的 操作 符 。 
lce 编译 器 规定 指针 可 以 用 无 符号 整 型 表示 ， 因 此 指针 操作 可 以 使 用 无 符号 操作 符 ， 这 样 就 减少 
了 操作 符 数 量 。 有 一 个 特例 : 没有 指针 到 指针 的 转换 CVP+U， 因 为 该 转换 没有 任何 用 处 。 


(pointer-to-pointer conversion 135 ) 三 135 
if (isfunc(pty->type) && !isfunc(ty->type) 
|| !isfunc(pty->type) && isfunc(ty->type)) 
warning("conversion from '%t' to ‘%t' is compiler _ 
dependent\n", p->type, ty); 
return retype(p, type); 


如 果 出 现 对 象 指针 与 函数 指针 之 间 的 转换 ，lcc 编译 器 将 会 给 出 警告 信息 。 这 是 因为 标准 C 允许 
不 同类 型 的 指针 大 小 不 同 ， 而 loo 编译 器 却 假定 它们 有 相同 的 大 小 。 

cast 的 第 2 步 就 是 转换 p， 这 时 p 是 一 个 双 精 度 型 、 整 型 或 者 无 符号 整 型 ， 如 果 需 要 ，p 就 
被 转换 为 这 3 种 类 型 中 的 任意 一 种 ， 也 就 是 ty 的 父 类 型 : 


(convert p to super(ty) 135 ) 三 134 
{ 
Type sty = super(ty); 
pty = p->type; 
if (pty != sty) 
if (pty == inttype) 
p = simplify(CVI, sty, p, NULL); 
else if (pty == doubletype) 
if (sty == unsignedtype) { 
(double-to-unsigned conversion) 
} else 
p = simplify(CVD, sty, p, NULL); 
else if (pty == unsignedtype) 
if (sty == doubletype) { 
(unsigned-to-double conversion 136 ) 
} else 
p = simplify(CVWU, sty, p, NULL); 
} 


注意 在 图 9-1 中 D 与 U 之 间 没 有 直接 的 转换 箭头 。 大 多 数 机 器 都 有 指令 实现 有 符号 整 型 与 双 精 
度 之 间 的 转换 ， 但 是 很 少 有 机 器 有 指令 实现 无 符号 整 型 与 双 精 度 之 间 的 转换 ， 所 以 没有 CVU+D 
或 CVD+U。 取 而 代 之 的 是 ， 编 译 前 端 构建 树 来 实现 这 种 转换 ， 而 前 提 是 假定 整 型 和 无 符号 整 型 
有 相同 的 大 小 。 

通过 构建 等 价 于 


2.*Cint) (u>>1) + Cint) (u&l1) 
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的 表达 式 可 以 将 一 个 无 符号 整 型 tu 转换 为 双 精 度 型 。u>>1 (等 价 于 2 ) 腾空 符号 位 ， 这 样 ， 就 
可 以 通过 整 型 到 双 精 度 型 的 转换 ， 实 现 无 符号 整 型 到 双 精 度 型 的 转换 。 表 达 式 中 的 浮 点 乘 和 浮 点 
加 计算 出 正确 的 值 。 下 面 的 代码 为 该 表达 式 构 建树 : 


{unsigned-to-double conversion136 ) 三 135 
Tree two = tree(CNST+D, doubletype, NULL,. NULL); 
two->u.Vv.d = 2.; _ 

p = (*optree['+‘]) (ADD, 
(*optree['*"]) (MUL, 
two, 
simplify(CVU, inttype, 
simplify(RSH, unsignedtype, 
p, consttree(1, inttype)), NULL)), 
simplify(CVU, inttype, 
simplify(BAND, unsignedtype, 
p, consttree(1, unsignedtype)), NULL)); 


注意 这 棵 树 是 一 个 dag : 它 引 用 了 两 次 p。 函 数 optree 用 来 处 理 浮 点 乘 和 浮 点 加 操作 ， 因 此 无 符 
号 整 型 到 双 精 度 型 的 转换 需要 调用 optree。 

编译 前 端 通过 构建 相应 表达 式 树 来 实现 双 精 度 型 和 无 符号 整 型 之 间 的 转换 。 练 习 9.2 给 出 了 
具体 的 实现 方法 。 

现在 得 到 的 树 表示 了 一 个 ty 的 父 类 型 的 值 ，cast 的 第 3 步 就 是 将 树 转换 成 目标 类 型 。 这 一 步 
其 实 就 是 super 函数 的 逆转 换 : 


(convert p to ty 136 )= 134 
if (ty == signedchar || ty == chartype || ty == shorttype) 
p = simplify(CVI, type, p, NULL); 
else if Cisptr(ty) 
|| ty == unsignedchar || ty == unsignedshort) 
p = simplify(CVU, type, p, NULL); 
else if (ty == floattype) 
p = simplify(CVD, type, p, NULL); 
else 
p = retype(p, type); 


9.2 一 元 操作 符 和 后 缀 操作 符 


上 一 节 的 转换 函数 为 每 一 个 操作 实现 了 机 器 需要 的 语义 检查 。 标 准 还 规定 了 操作 数 的 限制 
(如 它们 的 类 型 ) 和 操作 的 语义 (如 结果 类 型 )。 典 型 的 例子 如 一 元 操作 符 -， 标 准 规定 如 下 : 


一 元 操作 符 一 的 操作 数 应 当 具 有 算术 类 型 。 
”一 元 操作 符 一 的 结果 就 是 操作 数 取 反 。 因 为 对 操作 数 进行 了 整 型 的 提升 ， 因 此 结果 类 型 是 提 
升 类 型 。 
每 一 个 操作 对 应 的 代码 实现 了 标准 的 规定 ， 包 括 检查 操作 数 的 树 是 否 符 合 这 种 限制 并 为 运算 结果 
构建 相应 的 树 。 例 如 ， 一 元 操作 符 - 的 代码 如 下 : 


(negation 136)= 125 
p = pointer(p); 
if Cisarith(p->type)) { 
p = cast(p, promote(p->type)); 
if Cisunsigned(p->type)) { 


RAAL 137 


warning("unsigned operand of unary -\n"); 
p = simplify(NEG, inttype, cast(p, inttype), NULL); 
p = cast(p, unsignedtype) ; 
} else 
p = simplify(NEG, p->type, p, NULL); 
} else 
typeerror(SUB, p, NULL); 


函数 typeerror 负责 对 一 元 或 二 元 操作 符 的 非法 操作 数 进行 诊断 。 例 如 ， 如 果 pi 是 一 个 整 型 指针 ， 
那么 pi 不 是 算术 类 型 ， 因 此 -pi 是 非法 的 ， 函 数 typeerror 产生 下 列 信息 : 


operand of unary - has illegal type ‘pointer to int’ 


如 果 一 元 操作 符 = 使 用 无 符号 操作 数 ， 根 据 标 准 规定 ， 要 给 出 警告 信息 ， 这 有 助 于 检查 可 能 
的 错误 。 即 使 loc 编译 器 支持 有 符号 长 整 型 包含 所 有 负 的 无 符号 整 型 ， 这 种 警告 信息 也 是 合适 的 ， 
因为 整 型 的 提升 不 会 产生 任何 长 整 型 。 

对 于 一 元 操作 符 &， 标 准 规定 如 下 : 


一 元 操作 符 & 的 操作 数 或 者 是 一 个 函数 指示 ( function designator) 或 者 是 一 个 对 象 的 左 值 ， 
该 对 象 不 能 是 位 域 ， 也 不 能 声明 为 具有 寄存 器 存储 类 别 。 


一 元 操作 符 & 处 理 类 型 为 T 的 操作 数 并 返回 它 的 地 址 (类 型 为 (POINTER T))。 大 多 数 情况 
下 ， 上 述 语 义 是 通过 函数 lvalue 实现 的 ，lvalue 函数 返回 INDIR 节点 下 的 地 址 树 。 函 数 和 数组 是 
个 例外 ， 它 们 没有 INDIR 节点 : 
(address of 137 ) 三 125 
if Cisarray(p->type) || isfunc(p->type)) 
p = retype(p, ptr(p->type)); 
else 
p = Ivalue(p); 
if Cisaddrop(p->op) && p->u.sym->sclass == REGISTER) 
error("invalid operand of unary &; '%s' is declared _ 
register\n", p->u.sym->name) ; 
else if (isaddrop(p->op)) 
p->u.Sym->addressed = 1; 


(tree.c exported macros) = 
#define isaddrop(op) \ 
CCop)==ADDRG+P || Cop)==ADDRL+P {1 Cop)==ADDRF+P) 


(symbol flags 37) += kr 163 28 
unsigned addressed:1; 

正如 上 面 所 说 的 ， 一 元 操作 符 & 的 操作 数 不 能 是 寄存 器 变量 或 位 域 。 位 域 的 树 没有 INDIR， 所 
以 lvalue 可 以 区 分 出 它们 。 对 于 经 常 被 引用 的 局 部 变量 和 参数 ， 编 译 前 端 会 在 它们 传 到 编译 后 端 
之 前 将 它们 的 存储 类 型 改 为 REGISTER， 但 是 前 端 不 能 改变 那些 地 址 被 使 用 的 变量 的 存储 类 型 ， 
也 就 是 那些 具有 addressed 标记 的 符号 。 

一 元 操作 符 * 是 一 元 操作 符 & WBE; 它 处 理 具 有 类 型 (POINTER T) 的 操作 数 ， 返 回 
INDIR 分 析 树 ， 该 树 表示 类 型 T 的 右 值 。 同 样 ， 大 部 分 的 工作 由 函数 rvalue 完成 ， 而 数组 和 函数 
的 指针 需要 进行 特殊 处 理 。 
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(indirection 138 ) 三 125 

p = pointer(p); 
if Cisptr(p->type) 
&& Cisfunc(p->type->type) || isarray(p->type->type))) 

p = retype(p, p->type->type) ; 
else { 

if (YYnu11) 

p = nullcheck(p); 

p = rvalue(p); 

} 


YYnull 和 nullcheck 捕获 空 指针 错误 ， 参 见 练习 9.5. 

类 型 转换 说 明了 显 式 的 转换 。 某 些 类 型 转换 ， 比 如 指针 到 指针 的 转换 ， 不 会 生成 代码 ， 只 需 
简单 地 指定 表达 式 的 类 型 。 其 他 类 型 转换 ， 比 如 整 型 到 浮 点 型 的 转换 ， 会 生成 代码 ， 影 响 运行 时 
转换 。 下 面 的 代码 和 函数 cast 实现 了 标准 所 规定 的 转换 规则 。 

标准 规定 ， 类 型 转换 的 目标 类 型 必须 是 限定 的 或 未 限定 的 标量 类 型 或 者 void， 操 作 数 的 类 型 
( 即 源 类 型 ) 必须 是 一 个 标量 类 型 。 类 型 转换 的 语义 分 析 分 成 3 部 分 : 计算 和 检查 目标 类 型 ， 分 析 
操作 数 ， 计 算 和 检查 源 类 型 。 函 数 typename 分 析 类 型 声明 符 ， 返 回 结果 Type， 除 了 对 限定 枚 举 
类 型 进行 处 理 外 ，typename 的 大 部 分 工作 就 是 计算 目标 类 型 ; 

(type cast 138)= 138 125 

Type ty, tyl = typename(), pty; 
expect(')"); 
ty = unqual(tyl); 
if Cisenum(ty)) { 
Type ty2 = ty->type; 
if Cisconst(tyl1)) 
ty2 = qual(CONST, ty2); 
if Cisvolatile(tyl1)) 
ty2 = qual(VOLATILE, ty2); 
tyl = ty2; 
ty = ty->type; 


上 面 的 代码 就 是 用 来 计算 目标 类 型 yl 和 它 的 未 限定 变 体 fy。 枚 举 类 型 转换 的 目标 类 型 是 与 其 相 
关联 的 整数 类 型 (在 loc 编译 器 中 就 是 整 型 )， 而 不 是 枚 举 类 型 。 这 样 ， 在 分 析 操 作 数 之 前 ，tyl 
和 ty 必须 被 重新 计算 。 


(type cast 138)+= ĝe 138 125 
p = pointer(unary()); 
pty = p->type; 


if Cisenum(pty)) 
pty = pty->type; 
如 果 目 标 类 型 和 源 类 型 都 是 合法 的 ， 则 分 析 树 转换 为 未 限定 类 型 ty : 算术 类 型 和 枚 举 类 型 可 以 相 
互 转换 ; 指针 类 型 可 以 转换 为 其 他 指针 类 型 ; 指针 类 型 还 可 以 转换 为 整数 类 型 ， 反 之 亦 然 ， 但 是 
如 果 类 型 之 间 的 size 不 同 ， 结 果 就 不 确定 了 ; 而 任何 类 型 都 可 以 被 转换 为 void 类 型 。 
(type cast 138) += 138 139 125 


if Cisarith(pty) && isarith(ty) 
i| isptr(pty) && isptr(ty)) 
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p = cast(p, ty); 
else if Cisptr(pty) && isint(ty) 
li isint(pty) & isptr(ty)) { 
if (Aflag >= 1 && ty->size < pty->size) 
warning("conversion from '%t' to '%t' is compiler _ 
dependent\n", p->type, ty); 
p = cast(p, ty); 
} else if (ty != voidtype) { 
error("cast from '%t' to ‘x%t' is illegal\n", 
p->type, tyl); 
tyl = inttype; 
} 


记 住 ， 对 于 对 象 指 针 和 函数 指针 之 间 的 转换 ，cast 会 给 出 警告 信息 。 
最 后 一 步 就 是 根据 需要 将 p 转换 为 可 能 的 限定 类 型 ; 


(type cast 138)+= 138 125 
p = retype(p, tyl); 
if (generic(p->op) == INDIR) 
p = tree(RIGHT, ty, NULL, p); 


转换 不 是 一 个 左 值 ， 所 以 如 果 p 是 一 棵 INDIR 树 ， 它 隐 含 在 一 棵 RIGHT 树 中 ， 从 而 防止 函数 

lvalue 将 它 作为 一 个 左 值 。 
标准 C HUE efi] 形式 的 表达 式 等 价 于 *(etD)， 其 中 的 一 个 操作 数 必须 是 指针 而 另 一 个 必须 是 

整数 类 型 。 一 旦 e 和 1i 确定 了 ， 加 法 操作 的 语义 函数 就 可 以 完成 大 部 分 的 处 理工 作 : 


(subscript 139)= 126 
{ 


Tree q; 
t = gettok(); 
q = expr(']'); 
if (YYnu11) 
if Cisptr(p->type)) 
p = nullcheck(p); 
else if Cisptr(q->type)) 
q = nullicheck(q); 
p = (*optree['+']) (ADD, pointer(p), pointer(q)); 
if Cisptr(p->type) && isarray(p->type->type) ) 
p = retype(p, p->type->type); 
else 
p = rvalue(p); 
} 


最 后 一 个 论语 句 处 理 n 维 数组 ; 例如 ， 如 果 x 声明 为 int x[10][20], W xli] 表示 第 i 行 ， 它 的 类 型 
是 (ARRAY 20(INT)), 但 xli] 不 是 一 个 左 值 。i[x] 的 解释 与 x[] 的 类 似 ， 二 者 可 以 等 价 ， 但 很 少 
使 用 i[x]。 

对 域 的 引用 类 似 于 数组 下 标 ， 生 成 的 是 引用 该 域 右 值 的 树 ， 因 此 是 左 值 ; 或 者 对 于 数组 域 ， 
生成 引用 域 地 址 的 树 。 这 种 分 析 是 显而易见 的 : 

(pointer->field 139)= 126 


t = gettok(); 
p = pointer(p); 
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if (t == ID) { 
if Cisptr(p->type) && isstruct(p->type->type)) { 
if (YYnu11) 
p = nullcheck(p); 
p = field(p, token); 
} else 
error("left operand of -> has incompatible 
type '%t'\n", p->type); 
t = gettok(); 
} else 
error("field name expected\n"); 


field 调用 fieldref, fieldref 返回 一 个 Field， 它 包含 给 定 域 的 类 型 和 位 置 。 


(tree.c functions) += 134 
Tree field(p, name) Tree p; char *name; { 
Field q; 


Type tyl, ty = p->type; 


if Cisptr(ty)) 
ty = deref(ty); 
tyl = ty; 
ty = unqual(ty); 
if ((q = fieldref(name, ty)) != NULL) { 
(access the field described by q 140) 
} else { 
error("unknown field '%s' of '%t'\n", name, ty); 
p = rvalue(retype(p, ptr(inttype))); 
} . 
return p; 


} 


field 必须 能 够 处 理 限定 的 结构 类 型 。 如 果 结 构 类 型 声明 为 const 或 者 volatile， 对 于 域 的 引用 也 必 
须 是 类 似 限 定 的 ， 即 使 在 域 的 声明 符 中 不 允许 有 限定 符 。q->type 是 域 的 类 型 ， 而 q->offset 就 是 
域 的 字 节 偏 移 量 。 


(access the field described by q140)= 141 140 

if Cisarray(q->type)) { 3 

ty = q->type->type; 

(qualify ty, when necessary 140} 

ty = array(ty, q->type->size/ty->size, q->type->align); 
} else { 

ty = q->type; 

(qualify ty, when necessary 140) 

ty = ptr(ty); 


p = simplify(ADD+P, ty, p, consttree(q->offset, inttype)); 


(qualify ty, when necessary 140)= 140 
if Cisconst(ty1) & !isconst(ty)) 
ty = qual(CONST, ty); 
if Cisvolatile(tyl) && !isvolatile(ty)) 
ty = qual(VOLATILE, ty); 
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函数 simplify 返回 域 地 址 的 树 ， 或 者 返回 表示 存放 位 域 的 无 符号 数 的 地 址 的 树 。 如 果 q->lsb JE 
零 ， 那 么 q->lsb 指向 位 域 的 最 低 有 效 位 加 1 的 位 置 ，lsb 说 明了 该 域 是 位 域 。 位 域 通过 FIELD 树 
被 引用 ， 且 不 是 左 值 。 
(access the field described by q 140)+= 140 140 
if (q->Isb) { 
p = tree(FIELD, ty->type, rvalue(p), NULL); 
p->u.field = q; 


} else if (!isarray(q->type)) 
p = rvalue(p); 


{u fields for Tree variants 128 )+= 128 113 
Field field; 


FIELD 树 的 u-field 域 指向 Field 结构 (4.6 节 中 定义 )， 该 结构 描述 了 位 域 。 
表达 式 e.name 等 价 于 (&e)->name， 所 以 函数 field 也 被 <struct.field> 代码 段 调 用 。 该 代码 段 
为 “.” 的 左 操作 数 (e) 的 地 址 构建 树 ， 并 将 该 树 传递 给 field PAA. 


9.3 函数 调用 


函数 调用 的 语法 分 析 很 容易 但 是 语义 分 析 比 较 复 杂 。 语 义 分 析 不 仅 要 处 理 新 风格 的 函数 ， 还 
必须 处 理 旧 风格 的 函数 ， 而 标准 对 它们 所 规定 的 语义 对 于 转换 和 参数 检查 有 影响 。 语 义 分 析 必 须 
处 理 参数 的 计算 顺序 (依赖 于 接口 标志 left to_right)， 实 现 以 传 值 方式 传递 和 返回 结构 (依赖 于 接 
口 标志 wants_argb 和 wants_callb)， 还 要 处 理 实 参 中 包括 其 他 函数 调用 的 情况 。 所 有 这 些 不 同 的 
处 理 方式 都 是 由 lec 编译 器 接口 产生 的 ， 而 不 是 标准 中 的 规则 ， 这 些 不 同 的 处 理 方式 都 可 以 去 掉 。 
但 是 , 一 旦 去 掉 ， 就 使 得 loc 编译 器 不 能 生成 可 模拟 一 个 或 多 个 目标 机 的 调用 序列 的 代码 。 这 种 
复杂 性 就 是 为 与 现存 的 函数 调用 约定 相 兼容 而 付出 的 代价 。 


例如 : 
char *str; 
struct node { ... } a; 
struct node f(struct node x, char c, int i) { ... } 


main () { f(a, ‘\n', atoi(str)); } 


这 段 没 有 什么 实际 意义 的 程序 可 以 展示 几乎 所 有 的 复杂 性 。 调 用 函数 f 的 树 如 图 9-2 所 示 ， 我 们 
假定 wants_argb 等 于 1。CALL+B 的 右 操作 数 将 在 下 面 解释 。 图 中 的 所 有 RIGHT 树 合作 实现 了 
期 望 的 计算 次 序 。CALL 树 的 左 操作 数 就 是 一 棵 计算 参数 (ARG 子 树 ) 和 函数 自身 的 RIGHT 树 。 
图 9-2 中 最 左 端的 RIGHT 树 就 是 一 个 例子 。 图 9-2 中 以 阴影 标记 的 RIGHT 节点 为 根 节 点 的 树 表 
示 了 对 函数 atoi 的 嵌 套 调用 。 当 遍历 这 棵 树 生 成 代码 时 ， 就 可 以 保证 对 atoi 的 调用 代码 出 现在 计 
算 f 的 参数 之 前 。 通 常 ， 对 于 每 一 个 包含 函数 调用 的 参数 都 有 一 棵 RIGHT MH, MA MRR 
本 身 是 含 函 数 调用 的 表达 式 ， 也 会 有 一 棵 RIGHT 树 。 

KSH ARG 树 表 示 ， 首 先 表 示 的 是 最 右 参 数 ; ARG 树 的 右 操作 数 就 表示 对 其 余 实 参 的 计算 。 
ARG 树 可 以 有 两 个 操作 数 。 最 上 面 的 ARG+I 树 表示 参数 atoi(str)， 它 的 左 操作 数 指向 CALL+I 
子 树 。 这 里 出 现 的 RIGHT 子 树 会 使 编译 后 端 将 atoi 函数 返回 的 值 存 储 在 一 个 临时 变量 中 ， 再 通 
过 atoi 中 从 ARGH 到 CALL+I 的 引用 ,将 该 值 传递 给 函数 f。 
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CALL+B 


RIGHT ADDRL+P 
t3 
ADDRG+P 
f 
batai 
RIGHT ARG+I 
ARG+P ADDRG+P CNST+I ARG+B 
atoi 10 
INDIR+P INDIR+B 
ADDRG+P ADDRG+P 


str a 


图 9-2 f(a,\n',atoi(str)) 的 树 


第 二 个 ARG4HI 表 示 第 二 个 参数 ， 即 换行 符 。ft 有 一 个 原型 ， 是 一 个 新 风格 的 函数 ， 所 以 它 要 
求 整数 常量 \n' 转换 为 字符 来 传递 。 大 多 数 机 器 都 有 限制 ， 比 如 栈 对 齐 ， 这 种 强制 使 得 大 小 不 到 
一 个 字 的 类 型 要 作为 字 来 传递 。 即 使 没有 这 些 限 制 ， 将 不 到 一 个 字 的 类 型 作为 字 来 传递 效率 也 更 
高 。 所 以 lec 编译 器 在 生成 代码 时 ， 它 就 将 所 传递 的 短 整 型 ( short) 参数 和 字符 参数 扩大 为 整 型 
来 传递 ， 对 于 新 风格 的 函数 ，lce 生成 代码 在 函数 和 人口 处 将 这 些 参数 还 原 为 short 和 字符 。 如 果 全 
局 字符 ch 作为 了 函数 的 第 二 个 参数 传递 ， 对 应 的 树 为 


(ARG+I (CVC+I CINDIR+C (ADDRG+P ch)))) 


最 下 面 的 ARG+B 树 以 传 值 的 方式 将 结构 a 传递 给 函数 f 这 里 提供 了 ARG+B 树 ， 因 此 编 
译 后 端 可 以 使 用 与 目标 机 相关 的 调用 序列 。 第 16 章 就 给 出 了 它 是 如 何 用 在 MIPS 机 器 上 的 。 如 
果 wants_argb 等 于 0， 编 译 前 端 就 完全 实现 结构 的 传 值 。 首 先 调 用 者 将 实 参 复制 到 一 个 局 部 临时 
变量 中 ， 然 后 传递 该 临时 变量 的 地 址 。 被 调用 者 对 实 参 的 引用 处 理 成 通过 新 加 的 间接 引用 来 获取 
结构 实 参 (函数 idtree 实现 )。 图 9-3 显示 了 当 wants argb 等 于 0 时 ， 将 a 传 递 给 函数 人 的 ARG 
树 。 该 RIGHT 树 生 成 代码 将 a 赋值 给 临时 变量 刀 ， 然 后 传递 2 的 地 址 。 


ni 
RIGHT 
ASGN+B ADDRL+P 
t2 
ADDRL+P INDIR+B 
t2 
ADDRG+P 
a 


9-3 “4 wants_argb 等 于 0 时 ， 通 过 传 值 来 传递 结构 
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CALL+B 的 右 操 作 数 就 是 调用 程序 中 存放 返回 值 的 临时 变量 的 地 址 ， 例 如 图 9-2 PH t3 
接口 标志 wants_callb 等 于 1 时 ， 编 译 后 端 就 必须 将 该 地 址 传递 给 调用 者 。 当 wants_calllb 等 于 0 
时 ， 编 译 前 端 将 该 地 址 作为 隐 含 的 第 一 个 参数 来 传递 ， 并 将 CALL+B 改 为 CALL+HV ; 这 种 情况 
下 ,编译 后 端 就 永远 见 不 到 CALLB 节点 。 当 函数 调用 的 分 析 树 被 转换 为 编译 后 端的 节点 森林 
Int, PRAM listnodes 将 CALL+B 转换 为 CALL+V。 

listnodes 遍历 调用 树 时 ， 检 查 接口 标志 left to right 的 值 。 如 果 left to right 等 于 1， Ab Asti 
历 参 数 子 树 时 ， 首 先 访问 ARG 树 的 右 操 作 数 ， 这 就 生成 了 从 左 至 右 计算 参数 的 代码 。 如 果 left_ 
to right 等 于 0， 就 会 首先 访问 左 操作 数 ， 这 样 就 生成 了 从 右 至 左 计 算 参 数 的 代码 。 

函数 postfix 检查 函数 表达 式 的 类 型 ， 调 用 函数 call 完成 大 部 分 处 理工 作 : 

(calls 143)= 126 

{ 
Type ty; 
Coordinate pt; 
p = pointer(p); 
if Cisptr(p->type) && isfunc(p->type->type)) 
ty = p->type->type; 
else { 


error("found '%t' expected a function\n", p->type); 
ty = func(voidtype, NULL, 1); 


} 
pt = src; 
t = gettokQ); 
p = call(p, ty, pt); 
} 
函数 call 使 用 局 部 变量 来 处 理 上 述 每 个 语义 问题 。 变 量 n 用 来 对 实 参 进行 计数 。args 表示 参 
数 树 的 根 节点 ， 而 r 是 RIGHT 树 的 根 节 点 ， 该 RIGHT 树 保存 了 参数 或 含有 函数 调用 的 函数 表达 


式 。 例 如 在 图 9-2 中 , r 指 向 CALL+I 树 。 分 析 完 参数 后 ， 如 果 r 非 空 ， 则 r 和 args 一 起 封装 在 
RIGHT 树 中 传递 ， 这 里 的 RIGHT 树 就 是 图 9-2 中 根 节点 为 带 阴影 的 RIGHT 树 的 那 棵 子 树 。 如 
果 参 数 树 中 包含 一 棵 CALL F, KX hascall 返回 一 个 非 零 值 。 如 果 函 数 f 计 算 函 数 的 地 址 ， 那 
么 函数 funcname 返回 字符 串 “a function”, WI) funcname 返回 f 的 函数 名 。 


(enode.c functions)= 146 
Tree call(f, fty, src) Tree f; Type fty; Coordinate src; { 
int n = 0; 
Tree args = NULL, r = NULL; 
Type *proto, rty = unqual(freturn(fty)); 
Symbol t3 = NULL; 
if (fty->u.f.oldstyle) 
proto = NULL; 
else 
proto = fty->u.f.proto; 
if (hascall(f)) 
r ext; 
if Cisstruct(rty)) 
(initialize for a struct function 144) 
pt ber") 
for Gu) t 
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(parse one argument 144) 
TE Ge bees TD 
break; 
t = gettok(); 
} 
expect(')'); 
if C(still in a new-style prototype? 144)) 
errorC"insufficient number of arguments to %s\n", 
funcname(f)); 
TE Cr) 
args = tree(RIGHT, voidtype, r, args); 
if Cevents.calls) 
(plant an event hook for a call) 
return calltree(f, rty, args, t3); 
} 


f 是 表示 该 函数 的 表达 式 ，rty 是 返回 类 型 ， 而 proto 的 值 分 两 种 情况 : 如 果 是 旧 风 格 的 函数 ( 即 
使 它 有 原型 ， 参 见 4.5 节 )，proto 等 于 NULL ; 如 果 是 新 风格 的 函数 ，proto 保存 的 是 函数 原型 。 
非 空 的 proto 不 断 累 积 每 一 个 实 参 ， 这 些 实 参与 新 风格 原型 中 的 形 参 对 应 。 如 果 有 函数 原型 ， 下 
面 的 代码 就 用 来 测试 proto 是 否 指向 一 个 形 参 类 型 ， 


(still in a new-style prototype? 144)= 144 
proto && “proto && *proto != voidtype 


Ab FE BI PRB AY HY AR IFAS E FELSEN, PMN, ERA AT EBB RU PAP, Ft 
许 有 多 余 的 参数 。 
如 果 函 数 返 回 一 个 结构 ，t3 就 是 生成 的 用 来 保存 返回 值 的 临时 变量 : 


(initialize for a struct function 144)= 143 
{ 
t3 = temporary(AUTO, unqual(rty), level); 
if (rty->size == 0) 
error("illegal use of incomplete type 'Xt'\n", rty); 
} 


t 就 是 图 9-2 中 所 示 的 临时 变量 。 上 面 的 初始 化 工作 可 以 在 参数 分 析 完 成 后 再 进行 ， 但 是 lec 将 
它 放 在 参数 分 析 之 前 处 理 ， 以 便 在 调试 诊断 时 显示 的 源 程序 坐标 就 是 参数 列表 的 起 始 位 置 。 
一 个 实 参 就 是 一 个 赋值 表达 式 : 


(parse one argument 144)= 144 
Tree q = pointer(expri(0)); 
if (C(still in a new-style prototype? 144)) 
(new-style argument 145 ) 
else 
(old-style argument 145 ) 
if (!IR->wants_argb && isstruct(q->type)) 
(pass a structure directly 147) 
if (q->type->size == 0) 
q->type = inttype; 
if (hascal1(q)) 
r =r ? tree(RIGHT, voidtype, r, q) : q; 
args = tree(ARG + widen(q->type), g->type, q, args); 
n+ 十 ; 
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if (Aflag >= 2 & n == 32) 
warning("more than 31 arguments in a call to %s\n", 
funcname(f)); 


代码 开始 处 的 证 语句 区 分 新 风格 与 旧 风 格 的 函数 类 型 ， 并 处 理 对 含有 可 变 参 数 (例如 printf) 或 
有 多 余 参 数 的 新 风格 的 函数 的 调用 。 如 果 函 数 原型 规定 了 一 个 可 变 长 度 的 参数 列表 (以,.… 结束 )， 
那么 ， 在 原型 数组 中 至 少 有 两 种 类 型 并且 最 后 一 种 是 voidtype。 最 后 一 个 显 式 声明 的 参数 之 后 
的 形 参 所 对 应 的 实 参 的 传递 方式 与 旧 风 格 函数 传递 参数 的 方式 一 样 。 

新 风格 的 参数 传递 就 像 把 实 参 赋值 给 形 参 。 当 然 ， 参数 是 通过 ARG 树 传递 的 ， 因 此 实际 上 
并 没有 进行 赋值 。 但 是 可 以 调用 函数 assign 该 函数 对 赋值 进行 类 型 检查 ) 对 参数 进行 类 型 检查 : 


(new-style argument 145 )= 144 
{ 


Type aty; 
q = value(q); 
aty = assign(*proto, q); 
if (Caty) 
q = cast(q, aty); 
else 
errorC("type error in argument %d to %s; found "Xt" _ 
expected '%t'\n", n + 1, funcname(f), 
q->type, *proto); 
if CCisint(q->type) || isenum(q->type)) 
&& q->type->size != inttype->size) 
q = cast(q, promote(q->type)); 
++proto; 


第 二 个 对 函数 cast 的 调用 ， 将 传递 的 短 整 型 (short) 参数 和 字符 参数 提升 为 整 型 来 传递 。 
旧 风 格 函 数 的 参数 遵循 默认 的 参数 提升 规则 (default argument promotion)， 包 括 整 数 类 型 提 
升 以 及 将 浮 点 类 型 提升 为 双 精 度 类 型 。 


(old-style argument 145 )= 144 
{ 


if (!fty->u.f.oldstyle && *proto == NULL) 
error("too many arguments to %s\n", funcname(f)); 

q = value(q); 

if (q->type == floattype) 
q = cast(q, doubletype); 

else if (isarray(q->type) || q->type->size == 0) 
error("type error in argument %d to %s; '%t' is _ 

illegal\n", n + 1, funcname(f), q->type); 

else 

q = cast(q, promote(q->type)) ; 
} 


仅仅 检查 fproto 是 否 非 空 是 不 够 的 ， 因 此 代码 段 首先 检查 foldstyle。 正 如 4.5 节 所 述 ， 旧 风格 函 
数 可 以 有 原型 ， 但 是 这 些 原型 不 能 用 来 对 实 参 进行 类 型 检查 。 

实际 的 CALL 树 是 通过 函数 calltree 构建 的 ， 该 函数 的 参数 包括 : 函数 表达 式 的 树 、 返 回 类 
型 以 及 参数 树 ， 如 果 函 数 返 回 一 个 结构 ， 还 包括 存放 返回 值 的 临时 变量 。 所 有 这 些 树 连接 起 来 形 
成 了 图 9-2 中 的 CALL+B 树 : 
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(enode.c functions)+= 143-147 
Tree calltree(f, ty, args, t3) 
Tree f, args; Type ty; Symbol t3; { 
Tree p; 


if (args) 
f = tree(RIGHT, f->type, args, f); 
if Cisstruct(ty)) 
p = tree(RIGHT, ty, 
tree(CALL+B, ty, f, addrof(idtree(t3))), 
idtree(t3)); 
else { 
Type rty = ty; 
if Cisenum(ty)) 
rty = unqual(ty)->type; 
else if (isptr(ty)) 
rty = unsignedtype; 
p = tree(CALL + widen(rty), promote(rty), f, NULL); 
if Cisptr(ty) || p->type->size > ty->size) 
p = cast(p, ty); 
} 
return p; 


} 
整 型 、 无 符号 类 型 和 指针 都 需要 使 用 操作 符 CALL+I， 所 以 calltree 函数 的 大 部 分 工作 是 保证 类 型 
的 正确 。CALL+B 树 永远 在 RIGHT 树 下 ,， 该 RIGHT 和 树 返回 保存 返回 值 的 临时 变量 的 地 址 。 图 
9-2 省 略 了 这 棵 RIGHT 树 ; 实际 上 ， 由 calltree 构建 ， 并 由 函数 call 返回 的 树 的 开始 部 分 为 : 


RICHT 
CALL+B INDIR+B 
RIGHT ADDRL+P ADDRL+P 
t3 t3 


ADDRG+P 
f 


CALL+B 本 身 没有 返回 值 ， 它 的 存在 只 是 为 了 允许 编译 后 端 为 这 些 函 数 生 成 与 目标 机 器 相关 的 调 
用 序列 。 

addrof 是 lvalue 的 内 部 形式 ， 并 不 需要 INDHR 树 (尽管 在 calltree 使 用 addrof 时 有 一 棵 
INDIR 树 )。addrof 在 RIGHT, COND 和 ASGN 的 操作 数 以 及 INDIR 树 中 找到 计算 其 参数 指定 
的 地 址 的 树 。 如 果 有 必要 ，addrof 返回 一 棵 RIGHT 树 ， 代 表 原 来 的 树 和 参数 指定 的 地 址 。 例 如 ， 
WR a 是 p 下 面 的 代表 操作 数 的 树 ， 用 来 计算 地 址 ， 那 么 addrof(p) 返回 (RIGHT root(p) a); 如 
R p 本身 计算 地 址 ，addrof(p) 返回 po 

结构 总 是 以 传 值 方式 进行 传递 ， 但 如 果 wants argb 等 于 0 并 且 参 数 是 一 个 结构 ， 那 么 它 必 
须 复 制 到 一 个 临时 变量 。 如 果 函 数 返 回 一 个 结构 ， 有 一 种 优化 方法 可 以 改进 传递 该 结构 的 代码 。 
例如 : 


f( f(a,’ NN, atoi€str), "0". 1): 
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由 内 层 的 f 调 用 返回 的 node 被 传递 给 外 层 的 调用 。 在 这 类 情况 下 ， 可 以 避免 实 参 的 副本 ， 因 为 
该 实 参 已 经 存在 于 一 个 临时 变量 中 。 这 种 模式 是 : 
(RIGHT 
(CALL+B ... ) 


CINDIR+B (ADDRL+P temp)) 
) 


这 里 temp 是 一 个 临时 变量 。iscallb 函数 负责 寻找 这 种 模式 : 


(enode.c functions) += 146 1 48 
int iscallb(e) Tree e; { 
return e->op == RIGHT && e->kids[0] && e->kids[1] 
&& e->kids[0]->op == CALL+B 
&& e->kids[1]->op == INDIR+B 
&& isaddrop(e->kids[1]->kids[0]->op) 
&& e->kids[1]->kids[0]->u.sym->temporary; 
} 


(pass a structure directly 147)= 144 
if Ciscallb(q)) 
q = addrof(q); 
else { 
Symbol tl = temporary(AUTO, unqual(q->type), level); 
= asgn(tl, q); 
q = tree(RIGHT, ptr(tl->type), 
root(q), lvalue(idtree(t1))); 
} 
asgn(Symbol t, Tree e) 就 是 一 个 赋值 语句 的 内 部 形式 ， 构 建 并 返回 一 棵 树 ， 该 树 代 表 将 e 赋值 给 


符号 t。 


9.4 二 元 操作 符 
在 函数 expr3 中 通过 全 局 变量 optree 间接 调用 二 元 操作 符 的 语义 函数 ， 二 元 操作 符 的 语义 函 
数 接受 通用 操作 符 和 代表 两 个 操作 数 的 树 ， 返 回 代表 二 元 表达 式 的 树 。 表 9-1 列 出 了 这 些 语 义 函 
数 以 及 它们 所 处 理 的 操作 符 。 在 表 中 ， 操 作 符 按 组 排列 ， 每 一 组 操作 符 的 语义 都 是 相似 的 。 
表 9-1 操作 符 语义 函数 


函数 操作 符 
t= == * 请 %= 

incr ee EREE =^% 
asgntree a 
condtree Rt 
andtree || && - 
bittree | Oa % 
eqtree =s 
cmptree < > <& >= 
shtree < >> 
addtree + 
subtree = 


multree */ 
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全 局 变量 optree 的 定义 使 用 了 文件 token.h (参见 6.2 节 )， 抽 取 它 的 第 5 列 ， 其 中 存放 的 就 是 
构建 二 元 表达 式 的 树 的 函数 的 名 字 : 


(enode.c data)= 
Tree (*optree[]) ARGS((int, Tree, Tree)) = { 
#define xx(a,b,c,d,e,f,g) e, 
#define yy(a,b,c,d,e,f,g) e, 
#include “token.h" 
}; 


下 面 以 加 法 二 元 操作 符 为 例 介绍 这 些 语义 函数 。 语 义 函 数 必须 对 操作 数 进行 类 型 检查 ， 并 根 
据 它 们 的 类 型 来 构建 相应 的 树 。 最 简单 的 情形 就 是 两 个 操作 数 都 具有 算术 类 型 : 


(enode.c functions) += 147 149 
static Tree addtree(op, 1, r) int op; Tree 1, r; { 
Type ty = inttype; 


if (isarith(1->type) & isarith(r->type)) { 
ty = binary(1->type, r->type); 
(cast 1 and r to type ty 148 ) 

} else if Cisptr(l->type) && isint(r->type)) 
return addtree(ADD, r, 1); 

else if ( isptr(r->type) && isint(1->type) 

&& !isfunc(r->type->type)) 
(build an ADD+P tree 148) 

else 
typeerror(op, 1, r); 

return simplify(op, ty; 1, r); 

} 


(cast 1 and r to type ty 148)= 148 149 150 
1 = cast(1, ty): 
r = cast(r, ty); 


加 法 操作 还 可 以 按 任意 顺序 处 理 一 个 指针 和 一 个 整 型 数 。 上 面 对 函 数 addtree 的 递归 调用 交 
换 了 参数 次 序 ， 这 样 就 使 得 接 下 来 的 语句 对 两 种 次 序 都 可 以 处 理 。 编 译 前 端 可 以 将 整 型 操作 数 置 
于 ADD dag 的 左 侧 ， 以 帮助 编译 后 端 实现 对 地 址 模式 的 加 操作 。 

C 的 标准 区 分 了 对 象 指针 和 函数 指针 。 大 多 数 操作 符 ， 比 如 加 法 操作 符 ， 仅 处 理 对 象 指针 。 
整数 可 以 与 对 象 指 针 相 加 ， 但 是 这 一 操作 还 隐 含 了 乘 以 对 象 大 小 的 乘法 操作 : 


(build an ADD+P tree 148 ) 三 148 
| 


int n; 
ty = unqual(r->type); 
(n — *ty’s size 149) 
7 = cast(1, promote(1->type)); 
if (n> 1) 
1 = multree(MUL, consttree(n, inttype), 1); 
return simplify(ADD+P, ty, 1, r); 
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(n — *ty’s size 149)= 148 
n = ty->type->size; 
if (n == 0) 
errorC"unknown size for type ‘'%t'\n", ty->type); 


函数 consttree 为 任意 类 型 (具有 整 型 或 无 符号 型 的 附加 值 ) 的 常量 构建 一 棵 树 : 


{enode.c functions) += 148 149 
Tree consttree(n, ty) unsigned n; Type ty; { 
Tree p; 


if Cisarray(ty)) 

ty = atop(ty); 
p = tree(CNST + ttob(ty), ty, NULL, NULL); 
p->U.V.U = n; 


return p; 
} 
关系 比较 操作 符 也 只 能 接受 对 象 指针 并 返回 整数 ， 但 是 它们 对 指针 操作 数 的 限制 比较 松 。 
(enode.c functions) += 149 149 
static Tree cnptree(op, 1, r) int op; Tree 1, r; { 
Type ty; 


if Cisarith(1->type) && isarith(r->type)) { 
ty = binary(1->type, r->type); 
(cast 1 and r to type ty 148 ) 

} else if (compatible(1->type, r->type)) { 
ty = unsignedtype; 
(cast l] and r to type ty 148) 

} else { 
ty = unsignedtype; 
typeerror(op, 1, r); 

} 

return simplify(op + ttob(ty), inttype, 1, r); 

} 


这 两 个 指针 必须 指向 兼容 的 对 象 类 型 (或 兼容 的 不 完全 类 型 ) 的 限定 或 未 限定 形式 。 换 名 话说， 
当 对 对 象 进行 类 型 检查 时 ， 任 何 const 或 volatile 限定 符 必须 被 忽略 ， 这 就 是 函数 compatible 所 做 
的 工作 : 


(enode.c functions)+= 149 150 
Static int compatible(tyl, ty2) Type tyl, ty2; { 
return isptr(tyl) && !isfunc(tyl->type) 
&& isptr(ty2) && !isfunc(ty2->type) 
&& eqtype(unqual(tyl->type), unqual(ty2->type), 0); 
} 
eqtype 函数 的 第 三 个 参数 为 0， 表示 它 的 两 个 类 型 参数 都 是 对 象 类 型 或 者 都 是 不 完全 类 型 。 
相等 比较 操作 符 类 似 于 关系 操作 符 ， 但 是 指针 操作 数 的 处 理 更 加 复杂 。 这 些 操作 符 以 及 其 
他 操作 符 对 于 void 指针 和 null 指针 必须 区 别 对 待 ，void 指针 指向 限定 或 未 限定 的 void 类 型 ， 而 
null 指针 是 值 为 0 的 整 型 常量 表达 式 ， 或 者 是 将 这 些 值 为 零 的 表达 式 转 换 为 void * 得 到 的 结果 。 
下 面 的 代码 定义 了 void 指针 和 null 指针 : 


150 


B 
© 
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(enode.c macros) = 
#define isvoidptr(ty) \ 
Cisptr(ty) && unqual(ty->type) == voidtype) 


(enode.c functions)+= 149 150 
static int isnullptr(e) Tree e; { 
return C(isint(e->type) && generic(e->op) == CNST 
&& cast(e, unsignedtype)->u.v.u == 0) 
11 Cisvoidptr(e->type) && e->op == CNST+P 
&& e->u.v.p == NULL); 
} 


除了 算术 类 型 是 通过 调用 函数 cmptree 来 处 理 的 以 外 ， 函 数 eqtree 接受 一 个 指针 和 一 个 空 指针 、 
一 个 对 象 指针 和 一 个 void 指针 参数 ， 或 者 两 个 指向 兼容 类 型 的 限定 或 非 限定 形式 的 指针 。eqtree 
中 的 第 一 条 让 语句 就 是 对 左 、 右 操作 数 的 这 3 种 组 合 进行 条 件 测试 ， 该 函数 的 递归 调用 会 在 适当 
的 时 候 对 右 、 左 操作 数组 合 进行 重复 测试 。 


(enode.c functions) += 150 151 
Tree eqtree(op, 1, r) int op; Tree 1, r; { 
Type xty = 1->type, yty = r->type; 


if Cisptr(xty) && isnullptr(r) 
|| isptr(xty) && !isfunc(xty->type) && isvoidptr(yty) 
|} (xty and yty point to compatible types 150)) { 
Type ty = unsignedtype; 
(cast 1 and r to type ty 148) 
return simplify(op + U, inttype, 1, r); 
} 
if Cisptr(yty) && isnullptr(]1) 
|] isptr(yty) && !isfunc(yty->type) && isvoidptr(xty)) 
return eqtree(op, r, 1); 
return cmptree(op, 1, r); 


} 


(xty and yty point to compatible types 150)= 150 151155 
Cisptr(xty) && isptr(yty) 
&& eqtype(unqual(xty->type), unqual(yty->type), 1)) 


如 果 eqtype 的 第 三 个 参数 等 于 1， 则 表示 eqtype 允许 前 两 个 参数 可 以 是 兼容 对 象 或 不 完全 类 型 的 
任意 组 合 。 对 于 声明 : 


int (*p)[10], ，(*q) []; 


eqtype 函数 的 第 三 个 参数 允许 p==q 而 不 允许 p<q。 


9.5 ”赋值 操作 


赋值 表达 式 、 函 数 参 数 、 返 回 语句 或 者 初始 化 代码 的 合法 性 都 依赖 于 将 右 值 赋值 给 左 值 所 表 
示 的 地 址 的 合法 性 。assign(xty，e) 对 任何 赋值 都 进行 必要 的 类 型 检查 ， 它 检查 将 树 。 赋值 给 一 个 
保存 xty 类 型 值 的 左 值 的 合法 性 ， 如 果 该 赋值 是 合法 的 就 返回 xty 类 型 ， 否 则 就 返回 null。 在 进 
行 赋值 之 前 ， 必 须 将 e 转 换 成 返回 值 xty 类 型 。 
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(enode.c functions)+= 150 152 
Type assign(xty, e) Type xty; Tree e; { 
Type yty = unqual(e->type); 


xty = unqual(xty); 
if Cisenum(xty)) 
xty = xty->type; 
if (xty->size == 0 || yty->size == 0) 
return NULL; 
(assign 151 } 
} 


C 语言 标准 针对 赋值 规定 了 $ 种 约束 ，assign 的 函数 体 对 这 5 种 约束 进行 测试 。 前 两 种 约束 
是 针对 算术 和 结构 类 型 的 赋值 : 
(assign 151)= 151 151 
if ( isarith(xty) && isarith(yty) 


11 dsstruct(xty) && xty == yty) 
return xty; 


其 他 3 种 约束 都 涉及 指针 。 空 指针 可 以 赋值 给 任何 指针 : 


(assign 151)+= iS1 151151 
if Cisptr(xty) && isnullptr(e)) 
return xty; 


只 要 左 操作 数 指向 的 类 型 有 右 操作 数 指向 的 类 型 所 具有 的 所 有 限定 符 ， 任 何 指针 就 都 可 以 赋值 给 
void 指针 ， 反 之 亦 然 。 


(assign 151)+= (Si igh 151 
if CCisvoidptr(xty) && isptr(yty) 
|| isptrCxty) && isvoidptr(yty)) 


&& (*xty has all of *yty’s qualifiers 151)) 
return xty; 


(*xty has all of *yty’s qualifiers 151 )= 151 
( (Cisconst(xty->type) [| tisconst(yty->type)) 
&& (isvolatile(xty->type) || !isvolatile(yty->type))) 


一 个 指针 可 以 赋值 给 另 一 个 指针 ， 仅 当 它 们 指向 兼容 的 类 型 ， 并 且 左 值 具有 右 值 的 所 有 限定 符 ， 
像 上 面 一 样 。 


(assign 151) += Biisi 151 
if ((xty and yty point to compatible types 150) 
&& (*xty has all of *yty's qualifiers 151 )) 
return xty; 


最 后 ， 如 果 上 面 的 情形 都 不 满足 ， 那 么 该 赋值 操作 就 是 错误 的 ，assign 函数 返回 一 个 空 指针 。 


(assign 151 ) 十 三 S115! 
return NULL; 


函数 assign 应 用 于 函数 asgntree， 为 赋值 操作 生成 树 : 
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(enode.c functions) += i 154 
Tree asgntree(op, 1, r) int op; Tree 1, r; { 
Type aty, ty; 


r = pointer(r); 
ty = assign(l->type, r); 
if (ty) 
r = cast(r, ty); 
else { 
typeerror(ASGN, 1, r); 
if (r->type == voidtype) 
r = retype(r, inttype); 
ty = r->type; 
} 
if (1->op != FIELD) 
1 = Ivalue(1); 
(asgntree 152 ) 
return tree(op + (isunsigned(ty) ? I : ttob(ty)), 
tY¥, Us UD 
} 


当 赋 值 非法 时 ，assign 函数 返回 空 指针 ，asgntree 函数 必须 为 赋值 的 结果 选择 一 种 类 型 。 如 果 右 
操作 数 的 类 型 不 是 void 类 型 ， 结 果 类 型 就 使 用 该 类 型 ; 否则 ， 结 果 类 型 为 整 型 。 这 段 代 码 也 展示 
了 发 生 语 义 错误 时 ， 需 要 从 错误 中 恢复 以 使 编译 继续 下 去 。 

下 面 <asgntree> 中 列 出 的 代码 段 是 asgntree 函数 的 主体 ， 它 主要 进行 以 下 工作 : 检查 是 否 有 
试图 改变 常量 区 域 的 值 的 代码 ， 改 变 位 域 赋值 的 整数 右 值 使 得 它们 符合 标准 规范 ， 以 及 转换 一 些 
结构 赋值 语句 以 生成 更 好 的 代码 。 

如 果 对 象 类 型 是 用 const 限定 的 或 者 结构 类 型 是 const 限定 的 ， 则 其 左 值 就 表示 常量 区 域 。 
结构 类 型 是 否 具有 const 限定 符 ， 可 以 通过 它 的 u.s.cfields 域 来 判断 。 


(asgntree152 ) 三 153 152 
aty = l->type; 
if Cisptr(aty)) 
aty = unqual(aty)->type; 
if ( isconst(aty) 
11 isstruct(aty) && unqual (aty)->u.sym->u.s.cfields) 
if Cisaddrop(1->op) 
&& !1->u.sym->computed && !1->u.sym->generated) 
errorC"assignment to const identifier '%s'\n", 
]->u. sym->name) ; 
else 
error("assignment to const location\n"); 


aty 被 设置 为 存放 在 左 值 表示 的 地 址 中 的 值 类 型 。 如 果 aty 具有 const 限定 符 或 者 它 是 一 个 具有 一 
个 或 多 个 用 const 限定 了 的 域 的 结构 类 型 ， 那 么 该 赋值 不 合法 。 调 试 信息 对 那些 在 源 程序 中 没有 
名 字 的 左 值 单独 处 理 。 

赋值 操作 的 结果 就 是 其 左 操作 数 的 值 ， 结 果 类 型 是 左 操作 数 的 限定 形式 。 函 数 asgntree FF 
始 的 类 型 转换 就 是 将 r+ 设置 为 正确 的 树 , 将 ty 设置 为 + 对 应 的 类 型 ， 这样 ty 就 表示 结果 ， 所 以 
ASGN 的 结果 就 是 它 的 右 操作 数 。 遗 憾 的 是 ， 这 种 处 理 对 于 位 域 并 不 起 作用 。 位 域 赋值 的 结果 应 
是 赋值 后 从 位 域 中 提取 的 值 ， 这 个 值 可 能 与 + 表示 的 值 并 不 相同 。 因 此 ， 如 果 位 域 所 占 的 空间 不 
到 一 个 完整 的 无 符号 数 所 占 的 空间 ， 那 么 处 理 对 该 位 域 的 赋值 时 ，asgntree 必须 将 r 改 变 为 仅 计 
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算 位 域 值 的 树 。 


(asgntree 152) += (52 153 152 
if ()->op == FIELD) { 
int n = 8*]->u.field->type->size - fieldsize(1->u. field); 
if (n > 0 && isunsigned(1->u.field->type)) 
r = bittree(BAND, r, 
consttree(fieldmask(1->u. field), unsignedtype)); 
else if (n > 0) { 
if (r->op == CNST+I) 
r = consttree(r->u.v.i<<n, inttype); 
else 
r = shtree(LSH, r, consttree(n, inttype)); 
r = shtree(RSH, r, consttree(n, inttype)); 
} 
} 


如 果 位 域 是 无 符号 数 ， 那 么 结果 就 是 r 去 掉 多 余 的 有 效 位 后 得 到 的 值 。 如 果 位 域 是 有 符号 数 ， 并 
BEA mtt, WME m-1l 位 就 是 位 域 的 符号 位 ， 符 号 位 用 来 对 该 值 进行 符号 扩展 ， 符 号 扩展 可 以 通 
过 算术 移 位 实现 : 首先 左 移 r， 将 第 m 位 移 到 符号 位 ， 然 后 再 右 移 相 同 的 位 数 ， 并 在 右 移 过 程 中 
使 用 符号 位 填充 。 例 如 ， 图 9-4 给 出 了 下 面 代码 块 中 两 条 赋值 语句 的 树 : 

struct { int a:3; unsigned b:3; } x; 

X.a = e; 

x.b = £; 
在 赋值 x.a=e H, r 赋值 为 一 棵 树 ， 该 树 表示 通过 移 位 对 e 最 右 三 位 进行 符号 扩展 ; 对 于 x.b=e, r 
赋值 为 一 棵 表示 将 7 和 e 相 与 的 树 。 如 果 上 是 一 个 常量 ， 左 移 操作 显 式 执 行 ， 以 避免 进行 常量 折 
Beit Bae H o 
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LSH+I  CNST+I e CNST+U 
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图 9-4 表示 x.a=e 和 x.b=e 结果 的 树 


一 般 来 说 ,编译 后 端 会 为 结构 赋值 生成 块 移动 (block move) 操作 。 为 这 些 赋值 生成 好 的 代 
码 主要 取决 于 编译 后 端 ,， 但是， 前 端 也 可 以 减少 这 种 无 用 的 代码 块 移动 的 数目 ， 它 类 似 于 9.3 节 
中 描述 的 通过 call 函数 对 结构 参数 进行 的 优化 。 在 x=f0 中 , f 返 回 一 个 结构 ， 调 用 程序 将 生成 
一 个 临时 变量 以 保存 f 的 返回 值 ， 调 用 返回 后 将 临时 变量 赋值 给 x。 图 9-5 的 左 图 给 出 了 结果 树 ， 
其 中 x 代表 x 对 应 的 树 。 在 临时 变量 的 位 置 直 接 使 用 x 代替 ， 可 以 避免 复制 操作 。 

当 x 是 一 个 直接 地 址 ， 并 且 有 一 个 保存 f 返 回 值 的 临时 变量 时 ， 这 种 改进 才 可 以 实现 : 

(asgntree 152 )+= 3 152 

if Cisstruct(ty) && isaddrop(1->op) && iscallb(r)) 
return tree(RIGHT, ty, 


tree(CALL+8, ty, r->kids[0]->kids[0), 1), 
idtree(1->u.sym)); 
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图 9-5 的 右 图 给 出 了 这 种 转换 返回 的 树 。 
机 
x RIGHT RIGHT 
CALL+B INDIR+B CALL+B INDIR+B 
ADDRG+P ADDRL+P ADDRL+P ADDRG+P x 
f ti tl f 


图 9-5 x=f0 的 分 析 树 


9.6 ”条件 操作 


条 件 表 达 式 复杂 的 语义 综合 了 比较 操作 符 、 二 元 操作 符 、 赋 值 和 类 型 转换 四 者 的 语义 。 
COND 是 唯一 一 个 处 理 3 个 操作 数 的 操作 符 : 表达 式 e?l:r 生成 如 图 9-6 所 示 的 树 ， 该 树 是 由 函数 
condtree 构建 的 : 


(enode.c functions) += 132 
Tree condtree(e, 1, r) Tree e, 1, r; { 
Symbol t1; 
Type ty, xty = 1->type, yty = r->type; 
Tree p; 


(condtree 155) 
p = tree(COND, ty, cond(e), 
tree(RIGHT, ty, root(1), root(r))); 
p->u.sym = tl; 
return p; 
} 

其 中 临时 变量 tl 通过 COND 树 的 usym 域 来 传递 ， 它 保存 了 运行 时 条 件 表达 式 的 结果 。 如 果 结 
RE void 类 型 的 ，tl 就 会 被 忽略 。 


图 9-6 e?lr 的 树 


上 面 的 代码 调用 cond(e) 对 第 一 个 操作 数 进行 类 型 检查 ， 第 一 个 操作 数 必须 是 一 个 标量 类 型 。 
对 于 第 二 个 和 第 三 个 操作 数 的 类 型 有 6 种 合法 的 组 合 。 最 简单 的 3 种 组 合 就 是 : 二 者 都 是 算术 类 
型 、 二 者 是 兼容 的 结构 类 型 、 二 者 都 是 void 类 型 。 所 有 这 3 种 组 合 都 可 以 被 下 面 两 条 让 语句 所 
Fim: 
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(condtree 155) = 1555 154 
if Cisarith(xty) & isarith(yty)) 
ty = binary(xty, yty); 
else if (eqtype(xty, yty, 1) 
ty = unqual (xty); 


第 一 个 if 语 句 处 理 算术 类 型 ， 第 二 个 让 语句 处 理 结构 类 型 和 void 类 型 。 
剩余 的 3 种 情况 都 涉及 指针 类 型 。 如 果 操 作 数 中 有 一 个 是 空 指针 而 男 一 个 是 指针 ， 则 结果 类 
型 就 是 那个 非 空 指针 的 类 型 : 


(condtree 155)+= 155155 154 
else if (Cisptr(xty) && isnullptr(r)) 
ty = xty; 
else if (isnullptr(1) && isptr(yty)) 
ty = yty; 


如 果 一 个 操作 数 是 void 指针 ， 而 另 一 个 是 指向 对 象 或 不 完全 类 型 的 指针 ， 则 结果 类 型 就 是 void 
指针 : 
(condtree 155)+= 155 155 154 
else if (isptr(xty) && !isfunc(xty->type) && isvoidptr(yty) 


1 isptr(yty) && !isfunc(yty->type) && isvoidptr(xty)) 
ty = voidptype; 


如 果 两 个 操作 数 都 是 指向 兼容 类 型 的 限定 或 未 限定 形式 的 指针 ， 则 它们 中 任何 一 个 都 可 以 作为 结 
果 类 型 . ' 


a 


{condtree 155)+= 155 155 154 
else if ((xty and yty point to compatible types 150)) 
ty = xty; i 
else { t 


typeerror(COND, 1, r); 
return consttree(0, inttype); 
} 


上 述 类 型 检查 代码 不 考虑 限定 类 型 指针 的 限定 符 。 但 是 ， 结 果 指 针 类 型 必须 包含 两 个 操作 数 
引用 类 型 的 所 有 限定 符 ; MA, WR ty 是 一 个 指针 ， 则 ee 使 用 相应 的 限定 符 来 重新 构建 ty: 


(condtree 155 )+= 135 156 154 
if Cisptr(ty)) { 
ty = unqual (unqual (ty)->type) ; 
if Cisptr(xty) && isconst(unqual (xty)->type) 
11 isptr(yty) && isconst(unqual(yty)->type)) 
ty = qual(CONST, ty); 
if Cisptr(xty) && isvolatile(unqual (xty)->type) 
{| isptr(yty) && isvolatile(unqual (yty)->type)) 
ty = qual(VOLATILE, ty); 
ty = ptr(ty); 
} 


如 果 条 件 式 。 是 一 个 常量 ,那么 条 件 表达 式 的 结果 就 是 其 他 两 个 操作 数 中 的 一 个 : 


156 


(condtree 155) += 155 156 154 
if (e->op == CNST+D || e->op == CNST+F) { 
e = cast(e, doubletype); 
return cast(e->u.v.d != 0.0? 1: r, ty); 


} 
if (generic(e->op) == CNST) { 
e = cast(e, unsignedtype); 
return cast(e->u.v.u ? 1: r, ty); 


HIF 


} 
APARMA RIERA, ERA, BORA RR Pea TET WA is Be Te 
达 式 的 上 下 文中 。 
最 后 ， 如 果 结 果 类 型 不 是 void 类 型 ， 就 生成 临时 变量 tl ， 并 且 将 1 和 转变 为 对 该 临时 变量 
进行 的 赋值 操作 : 
(condtree155 )+= 156 154 


if (ty != voidtype && ty->size > 0) { 
tl = temporary(REGISTER, unqual(ty), level); 
1 = asgn(tl, 1); 
r = asgn(tl, r); 
} else 
tl = NULL; 
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任何 需要 常量 的 地 方 都 允许 使 用 常量 表达 式 。 例 如 ， 数 组 大 小 、case 标号 
初始 化 操作 。 


constant-expression: conditional-expression 
常量 表达 式 可 以 用 下 面 的 代码 分 析 : 


(simp.c functions) = 157 
Tree constexpr(tok) int tok; { 
Tree p; 


needconst++; 

p = expri(tok); 
needconst--; 
return p; 


} 


(simp.c data)= 
int needconst; 


、 位 域 的 宽度 以 及 


函数 exprl 分 析 赋 值 表达 式 。 从 技术 上 来 讲 ， 函 数 constexpr 应 当 调 用 分 析 条 件 表达 式 的 函数 
expr2, 但 是 合法 的 赋值 操作 不 是 常量 ,会 导致 语义 错误 。 因 为 expri 完整 地 处 理 了 一 个 赋值 操 
YE, 并且 避免 了 对 同一 语法 错误 的 多 次 检查 ， 因 此 调用 expri 来 处 理 语法 错误 通常 效果 更 好 。 如 
果 constexpr 返回 的 树 不 是 一 棵 CNST 树 ， 但 该 返回 树 却 用 于 需要 常量 表达 式 的 上 下 文中 ， 那 么 
constexpr 的 调用 者 就 会 报告 一 个 错误 。 分 析 整 型 常量 表达 式 的 函数 intexpr 就 是 这 样 的 例子 : 
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(simp.c functions) += 136 157 
int intexpr(tok, n) int tok, n; { 
Tree p = constexpr(tok); 


needconst++; 
if (generic(p->op) == CNST && isint(p->type)) 
n = cast(p, inttype)->u.v.i; 
else 
error("integer expression must be constant\n"); 
needconst--; 
return n; 


} 
全 局 变量 needconst Fh W Hr (由 函数 simplify 处 理 )。 如 果 needconst AFF 0, simplify PK 
数 就 会 对 溢出 的 常量 表达 式 给 出 警告 信息 并 进行 常量 折 释 ， 和 否则 不 执行 常量 折 麦 。 
常量 折 秋 不 只 是 一 个 简单 的 优化 。C 语言 标准 在 对 一 些 语言 成 分 的 定义 中 规定 ， 常 量 表达 式 
的 值 必须 在 编译 时 计算 ， 因 此 需要 常量 折 又 。 数 组 大 小 和 位 域 的 宽度 就 是 这 样 的 例子 。 与 函数 
tree 相同 ， 函 数 simplify 也 返回 其 参数 指明 的 树 : 


(simp.c functions}+= 137 159 
Tree simplify(op, ty, 1, r) int op; Type ty; Tree 1, r; { 
int n; 
Tree p; 


if Coptype(op) == 0) 
op += ttob(ty); 

switch (op) { 
(simplify cases 157) 


return tree(op, ty, 1, r); 
} 
simplify 完成 函数 tree 未 处 理 的 3 类 操作 : 如 果 传递 的 参数 是 一 个 通用 操作 符 ， 它 就 形成 与 类 型 
相关 的 操作 符 ; 当 两 个 操作 数 都 是 常量 时 ， 它 就 计算 操作 的 结果 ; 在 它 构建 所 需 的 树 时 ， 会 把 一 
些 树 转 换 为 更 简单 的 树 ， 以 生成 更 优 的 代码 。 
simplify 中 switch 语句 的 每 一 个 case 分 支 分 别处 理 一 种 与 类 型 相关 的 操作 符 。 如 果 两 个 操作 
数 都 是 常量 ， 该 代码 就 为 结果 值 构建 并 返回 一 棵 CNST 树 ; 否则 ， 它 就 跳 转 到 switch 语句 的 结 
尾 ,构建 并 返回 相应 的 树 。 检 查 常量 操作 数 和 构建 结果 CNST 树 的 代码 对 于 每 一 个 case 语句 几 
乎 都 是 相同 的 ; 只 有 类 型 后 级 、Value 域名 、 操 作 符 以 及 返回 类 型 不 同 ， 所 以 这 部 分 代码 就 被 包 
装 为 一 组 宏 。 最 典型 的 一 种 情况 就 是 无 符号 数 的 加 法 操作 : 
(simplify cases 157)= 158 - 157 
case ADD+U: 
foldcnst(U,u,+,unsignedtype) ; 


commute(r,1); 
break; 


这 个 case 实现 了 如 下 转换 : 


(ADD+U CCNST+U c1) (CNST+U c2)) = (CNST+U ci +c2) 
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函数 foldenst 检查 两 个 操作 数 是 否 都 是 CNST+U 树 ， 如 果 是 ， 它 就 返回 一 棵 新 的 CNST+U W, 
且 新 建 的 树 的 uvu 域 就 是 ->rvu 5 rorv.u 的 和 : 


(simp.c macros) = 158 
#define foldcnst(TYPE,VAR,OP,RTYPE) \ 
if (1->op == CNST+TYPE && r->op == CNST+TYPE) {\ 

p = tree(CNST+ttob(RTYPE), RTYPE, NULL, NULL);\ 

p->u.v.VAR = 1->u.v.VAR OP r->u.v.VAR;\ 

return p; } 
对 于 可 交换 的 操作 ， 函 数 commute 确保 如 果 它 的 参数 中 有 一 个 是 常量 ， 则 该 常量 就 作为 commute 
函数 的 第 一 个 参数 。 这 种 转换 减少 了 编译 后 端 必 须 进行 的 分 析 操作 ， 人 允许 编译 后 端 依赖 出 现在 特 
定 地 方 的 可 交换 操作 的 常量 操作 数 。 


(simp.c macros) += 158 158 
#define commute(L,R) \ 
if (generic(R->op) == CNST && generic(L->op) != CNST) {\ 
Tree t= L; L=R; R=t; } 
必要 时 ，commute 交换 它 的 两 个 参数 ， 使 得 工 指向 常量 操作 数 。 例 如 ， 对 于 上 述 的 ADD+U， 如 
果 有 一 个 操作 数 是 常量 ，commute(r,1) 就 保证 了 r 引 用 该 常量 操作 数 。 在 下 文 可 以 看 到 ， 这 种 转 
换 也 使 得 simplify 的 一 些 转换 更 加 简单 。 

C 语言 标准 规定 对 无 符号 数 的 操作 没有 溢出 ， 因 此 无 符号 数 的 加 法 很 简单 。 然 而 ， 有 符号 的 
操作 必须 处 理 溢 出 。 例 如， 如 果 ADD+I 的 操作 数 是 常量 ， 而 且 它们 的 和 发 生 溢出 ， 那 么 该 表达 
式 就 不 是 一 个 常量 表达 式 ， 除 非 其 上 下 文 要求 它 是 常量 的 。 有 符号 操作 符 的 处 理 需 要 使 用 函数 
xfoldcnst， 该 函数 与 foldenst 类 似 ， 只 是 xfoldcnst 要 对 溢出 进行 检查 。 

(simplify cases 157) += 157 199157 

case ADD+I: 
xfoldcnst(1,i,+,inttype,add, INT_MIN, INT_MAX,needconst) ; 
commute(r, 1); 
break; 


仅 当 cito: 没有 溢出 或 者 needconst 等 于 1 时 ， 才 实现 如 下 转换 : 
(ADD+I (CNST+I c1) CCNST+I c2)) = (CNST+I cl tcCc2) 


xfoldenst 还 有 4 个 其 他 参数 : 一 个 相关 的 函数 、 结 果 人 允许 的 最 小 和 最 大 值 ， 以 及 一 个 标记 ， 
当 需 要 常量 时 ， 该 标记 为 非 零 值 。 


(simp.c macros) += 158 1 
#define xfoldcnst(TYPE,VAR,OP,RTYPE,FUNC,MIN,MAX, needconst)\ 

if (1->op == CNST+TYPE && r->op == CNST+TYPE\ 

&& FUNC((double) 1->u.v.VAR, (double) r->u.v.VAR, \ 
(double)MIN, (double)MAX, needconst)) {\ 

= tree(CNST+ttob(RTYPE), RTYPE, NULL, NULL);\ 

p->u.v.VAR = 1->u.v.VAR OP r->u.v.VAR;\ 
return p; } 


lcc 编译 器 假定 双 精 度 类 型 的 有 效 位 足够 表示 所 有 整数 类 型 ， 因 此 该 相关 函数 的 实 参 被 转换 为 双 
精度 类 型 。 检 查 常量 操作 数 以 及 构建 结果 CNST 树 的 代码 与 函数 foldenst 中 的 代码 相同 ， 但 是 需 
要 调用 指定 函数 来 检查 操作 的 有 效 性 。 如 果 操 作 发 生 溢出 ， 函 数 返回 0， 和 否则 返回 1。 函 数 的 参 
数 包括 操作 数 的 值 、 最 小 和 最 大 值 以 及 一 个 是 否 需 要 常量 的 标记 。 除 了 标记 外 ， 其 他 的 都 被 转换 
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为 双 精 度 类 型 。 对 于 整数 加 法 操作 ， 滋 出 的 测试 很 简单 ;如果 x+y hF INT_MIN 或 大 于 INT_ 
MAX， 就 会 发 生 溢出 ， 这 里 INT_ MIN 和 INT MAX 表示 的 是 有 符号 整数 的 最 小 或 最 大 ANSI 
(A. PAM add 可 以 处 理 所 有 的 类 型 ， 由 于 加 法 可 能 产生 溢出 ，add 并 不 真正 计算 x+ty， 相 反 ， 它 
只 测试 发 生 溢出 的 条 件 : 


(simp.c functions)+= 157 163 
static int add(x, y, min, max, needconst) 
double x, y, min, max; int needconst; { 
int cond = x == 0 || y == 0 
{| x < 0 && y < 0 & x >= min -y 
I] x <0 &y>oO 
|| x > 0 & y <0 
ll x > 0 && y > 0 && x <= max - y; 
if (icond && needconst) { 
warning("overflow in constant expression\n"); 
cond = 1; 
} 
return cond; 


} 


在 给 出 警告 信息 后 ， 如 果 needconst IES, HbA needconst 强制 add 函数 返回 1. PARK sub, mul 和 
div 也 都 类 似 。 

类 型 转换 可 以 分 为 必须 对 溢出 进行 检查 的 转换 以 及 可 以 忽略 溢出 的 转换 。 从 较 小 类 型 向 较 大 
类 型 转换 、 无 符号 类 型 之 间 的 转换 、 无 符号 类 型 与 指针 类 型 之 间 的 转换 以 及 从 整数 向 无 符号 类 型 
的 转换 都 可 以 忽略 溢出 。 下 面 的 转换 包含 了 这 4 种 情形 的 处 理 ， 它 们 实现 了 类 似 于 下 面 的 转换 : 


(CVC+I (CNST+C c)) = (CNST+I c’) 
其 中 ，c' 就 是 c 可 能 的 符号 扩展 值 ， 对 于 无 符号 类 型 之 间 的 转换 ，cs=ce 


(simplify cases 157 ) 十 三 138 160 157 
case CVC+I: i 
cvtcnst(C,inttype, p->u.v.i = 
(l->u.v.sc&0200 ? (~0<<8) : 0)|(1->u.v.sc&0377)); 
break; 
case CVU+S: 
cvtcnst(U,unsignedshort,p->u.v.us = 1->u.v.u); break; 
case CVP+U: 
cvtcnst(P,unsignedtype, p->u.v.u = (unsigned) 1->u.v.p); 
break; 
case CVI+U: 
cvtcnst(I,unsignedtype, p->u.v.u = 1->u.v.i); break; 


(simp.c macros) += 158 160 
#define cvtcnst(FTYPE,TTYPE,EXPR) \ T 
if (1->op == CNST+FTYPE) {\ 
p = tree(CNST+ttob(TTYPE), TTYPE, NULL, NULL);\ 
EXPR;\ 
return p; } 
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处 理 CVC+I 的 情况 时 ， 赋 值 操作 必须 首先 显 式 地 将 字符 操作 数 用 符号 位 进行 符号 扩展 ， 由 于 编 
译 器 本 身 可 能 通过 其 他 C 编译 器 编译 ， 所 以 不 能 假设 字符 已 经 经 过 了 符号 扩展 。 在 一 些 情况 下 ， 
也 可 以 通过 下 面 的 表达 式 替 换 传递 给 cvtconst 的 赋值 操作 : 


(Cint)1->u.v.sc<<(8*sizeof(int) - 8))>>(8*sizeof(int) - 8) 


然而 >> 操作 是 否 能 够 复制 符号 位 还 依赖 于 编译 lcc 的 编译 器 。 
从 大 类 型 向 小 类 型 的 4 种 转换 必须 检查 溢出 。 


(CVI+C (CNST+I c)) = (CCNST+C c) 
如 果 c 可 以 用 小 类 型 表示 或 者 needconst 等 于 1， 就 实现 下 面 的 转换 : 


(simplify cases 157) += 139 160 157 
case CVI+C: 
xcvtcnst(1, chartype, 1->u.v.i,SCHAR_MIN, SCHAR_MAX, 
Pp->u.v.ScC = 1->u.v.i); break; 
case CVD+F: 
xcvtcnst(D, floattype, l->u.v.d, -FLT_MAX,FLT_MAX, 
p->u.v.f = I->u.v.d); break; 
case CVD+I: 
xcvtcnst(D, inttype,1->u.v.d, INT_MIN, INT_MAX, 
p->u.v.i = 1->u.v.d); break; 
case CVI+S: 
xcvtcnst(I,shorttype, |1->u.v.i, SHRT_MIN,SHRT_MAX, 
p->u.v.sS = 1->u.v.i); break; 


{simp.c macros) += 15 
#define xcvtcnst(FTYPE, TTYPE,VAR,MIN,MAX,EXPR) \ 
if (1->op == CNST+FTYPE) {\ 

if (meedconst && (VAR < MIN || VAR > MAX))\ 
warning("overflow in constant expression\n");\ 

if (meedconst |] VAR >= MIN && VAR <= MAX) {\ 
p = tree(CNST+ttob(TTYPE), TTYPE, NULL, NULL);\ 
EXPR;\ 
return p; } } 


除了 计算 常量 表达 式 ，simplify 还 对 某 些 操作 树 进 行 转换 以 生成 更 优 的 代码 ， 包 括 去 掉 标 识 
符 和 其 他 简单 的 情况 。 例 如 : 


(simplify cases 157)+= 160 1g) 157 
case BAND+U: 
foldcnst(U,u,&,unsignedtype) ; 
commute(r,1); 
identity(r,1,U,u, (~Cunsigned)0)) ; 
if (r->op == CNST+U && r->u.v.u == 0) 
return tree(RIGHT, unsignedtype, root(1), 

consttree(0, unsignedtype)); 

break; 


=) 


4 


(simp.c macros) += 160 16) 
#define identity(X,Y,TYPE,VAR,VAL) \ 
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if (X->op == CNST+TYPE && X->u.v.VAR == VAL)\ 
return Y 


函数 identity 和 接 下 来 的 让 语句 来 实现 下 面 的 转换 : 


(BAND+U e (CNST+U ~0)) > e 
(BAND+U e (CNST+U 0)) = (e, (CNST+U 0)) 


在 第 二 种 情况 中 ，e 可 能 产生 副作用 ， 不 能 被 删除 。 从 代码 中 可 以 看 到 ， 如 果 只 有 是 一 个 常量 ， 
使 用 commute(r,1) 进行 检查 将 很 有 必要 。 

对 于 某 些 操作 符 simplify 还 实现 了 强度 削弱 ( strength reduction)， 即 用 计算 结果 相同 、 代 价 
更 低 的 操作 符 代替 原 操作 符 。 例 如 ， 一 个 无 符号 数 乘 以 2 的 k 次 寡 可 以 用 左 移 操作 来 代替 : 


(MUL+U (CNST+U 2*) e) = (LSH+U e (CNST+I k)) 
这 段 代码 也 使 用 函数 foldcnst 对 常量 操作 数 进行 检查 。 


(simplify cases 157)+= 160 161 157 
case MUL+U: ad 
commute(1,r); 
if (1->op == CNST+U && (n = ispow2(1->u.v.u)) != 0) 
return simplify(LSH+U, unsignedtype, r, 
consttree(n, inttype)); 
foldcnst(U,u,*,unsignedtype) ; 
break; 


k>0 Ht, W u EF 2‘, IA ispow2(u) 就 返回 ko 

位 域 经 常 使 用 诸如 p->x!=0 的 表达 式 进 行 检查 ， 该 表达 式 将 生成 以 FIELD 和 CNST 树 为 操 
作 数 的 NE 树 。 位 域 的 抽取 通常 涉及 移 位 和 掩 码 操作 ， 因 此 对 位 域 的 检查 可 以 被 更 简单 的 代码 蔡 
换 : 首先 获得 包含 位 域 的 字 ， 然 后 和 相应 的 屏蔽 位 进行 与 操作 ， 检 查 与 操作 的 结果 : 


(simplify cases 157)+= (61 162 157 
case NE+I: 
cfoldcnst(1,i,!=,inttype); 
commute(r,1); 
zerofield(NE,I,7i); 
break; 
(simp.c macros)+= . 160 162 
#define zerofield(OP,TYPE,VAR) \ 
if (1->op == FIELD\ 
&& r->op == CNST+TYPE && r->u.v.VAR == 0)\ 
return eqtree(OP, bittree(BAND, 1->kids[0],\ 
consttree(\ 
fieldmask(1->u. field)<<fieldright(1->u. field) ,\ 
unsignedtype)), r); E 


上 面 针 对 NEH 的 代码 实现 了 下 面 的 转换 : 


(NE+I (FIELD e} (CNST+I 0)) > 
(NE+I (BAND+U (e (CNST+U M))) (CNST+I 0)) 


其 中 ，M 是 位 域 左 移 m 位 后 得 到 的 长 度 为 s 的 掩 码 ，s 是 位 域 的 长 度 ， 该 位 域 与 存放 位 域 的 无 符 
号 数 或 整数 的 最 低 有 效 位 之 间隔 m 位 。cfoldenst 是 foldenst 的 另 一 个 版 本 ， 针 对 关系 操作 符 。 
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(simp.c macros)+= 161 162 
#define cfoldcnst(TYPE,VAR,OP,RTYPE) \ 
if (1->op == CNST+TYPE && r->op == CNST+TYPE) {\ 
p = tree(CNST+ttob(RTYPE), RTYPE, NULL, NULL);\ 
p->u.v.i = 1->u.v.VAR OP r->u.v.VAR;\ 
return p; } 


在 函数 simplify 中 ， 指 针 加 法 是 最 有 趣 但 也 是 最 复杂 的 一 种 情况 ， 需 要 实现 许多 转换 以 便 生 
成 更 优 的 代码 。 生 成 高 效 的 寻 址 是 生成 高 效 代 码 的 关键 ， 所 以 指针 加 法 的 转化 对 于 所 有 目标 机 器 
都 有 价值 。 最 简单 的 情况 就 是 处 理 常量 和 标识 符 : 
{simplify cases157)+= L 187 
case ADD+P: 
foldaddp(1,r,1I,i); 
foldaddp(1,r,U,u); 
foldaddp(r,1,1,i1); 
foldaddp(r,1,U,u); 
commute(r,1); 
identity(r,retype(],ty),1,1,0); 
identity(r,retype(1,ty),U,u,0); 
(ADD+P transformations 162 ) 
break; 


(simp.c macros) += 162 
#define foldaddp(L,R,RTYPE,VAR) \ 
if (L->op == CNST+P && R->op == CNST+RTYPE) {\ 
p = tree(CNST+P, ty, NULL, NULL);\ 
p->u.v.p = (char *)L->u.v.p + R->u.v.VAR;\ 
return p; } 


由 于 ADD+P 的 操作 数 是 不 对 称 的 个 是 指针 而 另 一 个 是 整数 或 者 无 符号 数 ， 所 以 需要 用 4 
种 方式 调用 函数 foldaddp. X} foldaddp 的 这 种 用 法 实现 了 下 面 的 转换 : 


(ADD+P (CNST+P c1) (CNST+I c2)) = (CNST+P cl + C2) 
使 用 函数 identity 实现 下 面 的 转换 : 
(ADD+P e (CNST+I 0)) > e 


还 实现 了 类 似 的 无 符号 常量 的 转换 。 
针对 ADD+P 树 的 其 余 转 换 或 者 是 生成 更 简单 、 更 优 的 树 ; 或 者 是 为 其 他 转换 进行 准备 。 
转换 


(ADD+P transformations 162)= 164 162 
if (isaddrop(1->op) 
&& (r->op == CNST+I || r->op == CNST+U)) 
return addrtree(}, cast(r, inttype)->u.v.i, ty); 


去 掉 了 用 常量 标识 的 已 知 地 址 的 下 标 寻 址 ， 例 如 数组 引用 a[5] 和 域 引 用 x + name。 这 些 表达 式 生 
成 形 如 

(ADD+P n (CNST+x c)) 
的 树 。 其 中 ,，n 表示 一 个 标识 符 地 址 的 树 ，x SFU SI, Mic 是 一 个 常量 。 该 树 被 转换 为 n'，n' 
Fe RAE FB) Fit AAA A. PRR addrtree 创建 了 一 个 新 的 标识 符 ， 并 为 它 的 地 址 构 
建树 。 新 创建 的 标识 符 的 地 址 为 1 加 上 一 个 常量 偏 移 量 。 
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(simp.c functions) += 159 
static Tree addrtree(e, n, ty) Tree e; int n; Type ty; { 
Symbol p = e->u.sym, q; 


NEWO(q, FUNC); 

q->name = stringd(genlabel(1)); 
q->sclass = p->sclass; 

q->scope = p->scope; 

q->type = ty; 

q->temporary = p->temporary; 
q->generated = p->generated; 
q->addressed = p->addressed; 
q->computed = 1; 

q->defined = 1; 

q->ref = 1; 

(announce q 163) 

e = tree(e->op, ty, NULL, NULL); 
e->u.sym = q; 

return e; 


} 


(symbol flags 37) += 137 228 28 
unsigned computed:1; 


与 其 他 标识 符 一 样 ， 编 译 前 端 必须 将 这 个 新 的 标识 符 通知 编译 后 端 。 因 为 它 的 地 址 是 基于 
另外 一 个 标识 符 p 的 地 址 的 ， 前 端 通过 调用 接口 函数 address 通 知 后 端 ， 新 的 标识 符 的 computed 
标志 表示 它 是 一 个 基于 其 他 符号 的 符号 。 但 是 有 一 个 先后 问题 : p 必须 在 q 之 前 通知 ， 但 是 如 
果 p 是 一 个 局 部 变量 或 者 参数 ， 则 此 时 它 还 未 通过 local 或 者 function 传递 到 编译 后 端 。 因 此 ， 
addrtree 仅 对 全 局 变量 和 静态 变量 调用 address， 而 对 于 局 部 变量 和 参数 延迟 处 理 : 


(announce q 163 )= 163 
if (p->scope == GLOBAL 
Il p->sclass == STATIC |} p->sclass == EXTERN) { 
if (p->sclass == AUTO) 
q->sclass = STATIC; 
C*IR->address)(q, p, n); 
} else { 
Code cp; 
addlocal (p); 
cp = code(Address); 
cp->u.addr.sym = q; 
cp->u.addr.base = p; 
cp->u.addr.offset = n; 
} 


RERAN Address 将 在 10.1 节 介绍 ， 对 于 全 局 变量 和 静态 变量 lcc 编译 器 不 会 推迟 调用 
address， 因 为 像 &a[5] 一 类 的 表达 式 是 常量 ， 而 且 可 以 出 现在 初始 化 中 。 

接 下 来 的 转换 可 改善 诸如 b[i].name 的 表达 式 ， 生 成 一 棵 形 如 (ADD+P(ADD+P i n)(CNST+x 
c)) 的 树 。 而 其 中 ，i 是 一 个 整数 表达 式 的 树 ，n 和 c 的 定义 已 经 在 上 文中 给 出 了 。 该 树 可 以 转换 
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为 (ADD+P i (ADD+P n (CNST+x c))), :内 层 的 ADD+P 树 可 以 通过 上 面 的 转换 变 为 (ADD+P in’), 
以 简化 寻 址 。 


(ADD+P transformations 162)+= 162 164 162 
if (1->op == ADD+P && isaddrop(1->kids[1]->op) 
&& (r->op == CNST+I || r->op == CNST+U)) 

return simplify(ADD+P, ty, 1->kids[0], 
addrtree(1->kids[1], cast(r, inttype)->u.v.i, ty)); 


从 技术 上 来 讲 ， 仅 当 (itn)+e 等 于 inte) 时 ， 这 种 转换 才 是 安全 的 ， 而 这 要 在 运行 时 才能 确定 ， 
但 是 C 语言 标准 允许 在 编译 时 进行 这 种 计算 的 重 排 。 

类 似 地 ， 树 (ADD+P(ADD+I i(CNST+x c))n) 可 被 转换 为 (ADD+Pin'); 如 果 SUBH 出 现在 
ADDH 的 位 置 上 ， 这 种 转换 也 适用 : 


(ADD+P transformations 162)+= 164 14 162 
if ((1->op == ADD+I || 1->op == SUB+I) 
&& 1->kids[1]->op == CNST+I && isaddrop(r->op)) 
return simplify(ADD+P, ty, 1->kids[0], 
simplify(generic(1->op)+P, ty, r, 1->kids[1])); 


接 下 来 的 分 支 合并 常量 并 实现 了 转换 : 


(ADD+P (ADD+P x (CNST c1)) (CNST c2)) > 
(ADD+P x (CNST cl + C2)) 

(ADD+P (ADD+I x (CNST c1)) (ADD+P y (CNST c2))) > 
(ADD+P x (ADD+P y (CNST cl +c2))) 


当 x 和 y 是 标识 符 树 时 ， 这 些 转换 会 触发 其 他 转换 。 


(ADD+P transformations 162) += 164 164 162 
if (1->op == ADD+P && generic(1->kids[1]->op) == CNST 
&& generic(r->op) == CNST) 
return simplify(ADD+P, ty, 1->kids[0], 
C*optree['+']) (ADD, 1->kids[1), r)); 
if (1->op == ADD+I && generic(1->kids[1]->op) == CNST 
&& r->op == ADD+P && generic(r->kids[1]->op) == CNST) 
return simplify(ADD+P, ty, 1->kids[0], 
simplify(ADD+P, ty, r->kids[0], 
(*optree['+']) (ADD, 1->kids[1], r->kids[1]))); 


最 后 一 个 转换 处 理 RIGHT 树 ， 对 其 操作 数 使 用 ADD+P 转换 。 


A 


(ADD+P transformations 162)+= 164 162 
if (1->op == RIGHT & 1->kids[1]) 
return tree(RIGHT, ty, 1->kids[0], 
simplify(ADD+P, ty, 1->kids[1], r)); 
else if (l->op == RIGHT && 1->kids{0]) 
return tree(RIGHT, ty, 
simplify(ADD+P, ty, 1->kids[0], r), NULL); 


这 些 测试 实现 了 转换 : 


(ADD+P (RIGHT x y) e) = (RIGHT x (ADD+P y e)) 
(ADD+P (RIGHT x) e) = (RIGHT (ADD+P x e)) 
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第 一 个 if AER fO. x 一 类 的 表达 式 形成 的 树 进行 测试 ; 该 调用 返回 一 个 临时 变量 ， 所 以 如 果 
要 对 临时 变量 的 域 进 行 引 用 ， 上 面 第 一 个 ADD+P 转换 的 价值 就 体现 出 来 了 。 第 二 个 让 语句 是 对 
作为 转换 结果 的 RIGHT 树 中 的 表达 式 进行 测试 。 
# 9-2 列 出 了 <simplify cases> 中 其 余 的 转换 。 
表 9-2 其 他 的 simplify 转换 


(AND+I (CNST+I 0) e) 
(AND+I (CNST+I 1) e) 
COR+I (CNST+I 0) e) 
(OR+I (CNST+I c) e),c #0 
(BCOM+U (BCOM+U e)) 
(BOR+U (CNST+U 0) e) 
(BXOR+U (CNST+U 0) e) 
(DIV+I e (CNST+I 1)) 
(DIV+U e (CNST+U c)),c = 2* 
(GE+U e (CNST+U 0)) 
(GE+U (CNST+U 0) e) 
(GT+U (CNST+U 0) e) 
(GT+U e (CNST+U 0)) 
(LE+U (CNST+U 0) e) 
(LE+U e (CNST+U 0)) 
(LT+U e (CNST+U 0)) 
(LT+U (CNST+U 0) e) 
(LSH+I e (CNST+I 0)) 
(LSH+U e (CNST+I 0)) 
(MOD+I e (CNST+I 1)) 
(MOD+U e (CNST+I c)),c = 2* 


下 


CCNST+I 0) 
e 
e 
(CNST+I 1) 
e 
e 
e 


e 

(RSH+U e (CNST+I k)) 
Ce, (CNST+I 1)) 
(EQ+I e CCNST+I 0)) 
Ce, (CNST+I 0)) 
(NE+I e (CNST+I 0)) 
Ce, (CNST+I 1)) 
(EQ+I e (CNST+I 0)) 
Ce, (CNST+I 0)) 
(NE+I e (CNST+I 0)) 
e 


e 
Ce, (CNST+I 0)) 
(BAND+U e (CNST+U c—1)) 


(MUL+I (CNST+I cı) (ADD+I e (CNST+I c2))) = 
(ADD+T (MUL+I (CNST+I cı) e) {CNST+I cl x cz)) 

(MUL+I (CNST+I cı) (SUB+I e (CNST+I c2))) = 
(SUB+I (MUL+I (CNST+I cı) e) CCNST+I cl x c2)) 


(MUL+I (CNST+I c) e),c = 2* 
(NEG+D (NEG+D e)) 

(NEG+F (NEG+F e)) 

(NEG+I 
(RSH+I e (CNST+I 0)) 

(RSH4+U e (CNST+I 0)) 

(SUB+P e (CNST+I c)) 

(SUB+P e (CNST+U c)) 

(SUB+P el (ADD+I ez (CNST+I c))) 


=>. 
> 


=> 


=> 


> 
=> 
=> 
> 


(LSH+I e (CNST+I k)) 
e 
e 


(NEG+I e)), e + CCNST+I INT_MIN) => e 


e 
e 
(ADD+P e (CNST+I -c)) 
(ADD+P e (CNST+U —c)) 


(SUB+P (SUB+P e, (CNST+I c)) e) 


深入 阅读 
lce 编译 器 的 类 型 检查 方法 与 第 6 章 中 列 出 的 Aho，Sethi and Ullman (1986) 方法 类 似 。 
simplify 转换 类 似 于 Hanson ( 1983 ) 描述 的 转换 。 类 似 更 彻底 的 转换 也 可 以 通过 其 他 优化 或 者 在 


代码 生成 阶段 进行 ， 但 是 它们 通常 都 会 带 来 额外 的 开销 。 函 数 simplify 仅仅 实现 了 那些 使 所 有 程 
序 都 获 益 的 转换 。 更 彻底 的 转换 需要 更 系统 的 方法 ， 参 见 练习 9.8。 


练习 


9.1 实现 如 图 9-1 所 示 的 Type super(Type ty)。 注 意 考虑 枚 举 类 型 以 及 long、unsigned long 和 long double 
类 型 。 
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9.2 


9:3 


9.4 
95 


9.6 


9.7 


9.8 


只 利用 双 精 度 - 符号 整数 ( double-to-signed integer) 转换 如 何 将 双 精 度 转换 为 一 个 无 符号 整数 ? 按照 你 
的 方法 实现 cast 中 的 <double-to-unsigned conversion> 代码 段 。 

TE lce 编译 器 中 ， 所 有 的 枚 举 类 型 都 是 通过 整数 来 表示 的 ， 而 大 多 数 C 编译 器 也 都 是 这 样 做 的 。 但 是 
C 语言 标准 允许 枚 举 类 型 用 任何 一 种 整数 类 型 来 表示 ， 只 要 选择 的 类 型 可 以 保存 所 有 的 值 。 例 如 ， 无 
符号 字符 可 以 用 来 表示 枚 举 值 在 0 ~ 255 的 枚 举 类 型 。 试 解释 cast 将 如 何 改变 才能 适应 这 种 模式 。lce 
早期 版 本 实现 了 这 种 模式 。 

完成 函数 unary 和 postfix 中 省 略 的 代码 段 。 

在 C 程序 中 ， 对 空 指针 进行 间接 访问 (dereference) 是 常见 的 程序 错误 。lcc 编译 器 的 -n 选项 就 是 用 来 
捕获 这 种 错误 的 。 通 过 -n, lce 在 每 一 个 源 文件 结束 时 生成 如 下 代码 : 


static char *_YYfile = "file"; 
static void _YYnull(Cint line) { 
char buf[200]; 
sprintf(buf,"null pointer dereferenced @%s:%d\\n", 
_YYfile, line); 
write(2, buf, strlen(buf)); 
abort(); 
} 
其 中 ，file 就 是 源 文件 名 ， 全 局 变量 YYnull 指向 函数 _YYnull 的 符号 表 表 项 。 当 需要 构建 树 来 对 指针 
p 进行 间接 访问 时 ， 如 果 YYnull 非 空 ， 则 调用 函数 nullcheck 来 构建 等 价 于 ( (tl=p) ||_YYnull (lineno), 
tl) 的 树 ， 其 中 世 是 一 个 临时 变量 ， 而 lineno 是 一 个 常量 ， 它 给 出 了 对 指针 进行 间接 访问 的 代码 在 源 
程序 中 的 行 数 ， 并 且 lineno 等 于 全 局 变量 lineno 的 值 。 这 样 ， 在 运行 时 试图 对 空 指针 进行 间接 访问 将 
导致 调用 函数 _YYnull 报错 。 实 现 函 数 nullcheck。 
函数 bittree 为 有 &、/、^ 和 % 构 建树 ， 函 数 multree 为 * 和 /构建 树 ， 函 数 shtree 为 >> 和 << 构 建树 ， 
函数 subtree 为 二 元 操作 符 - 构建 树 。 试 实现 这 些 函 数 。 函 数 subtree 中 的 指针 减法 代码 和 函数 bittree 中 
的 模 操 作 符 % 代码 是 最 复杂 的 。 函 数 subtree KAA 25 行 代码 ， 而 其 他 的 每 一 个 函数 都 少 于 20 行 。 
对 于 如 下 文件 作用 域 的 声明 ， 对 于 表达 式 x[10].table[i].count 会 构建 什么 样 的 ADD+P 树 ? 注意 使 用 
simplify 的 转换 。 
Ine ie 
struct list { 
char *name; 
struct entry table { 
int age; 
int count; 
} table[10]; 
} x[100]; 
函数 simplify (EHE RREK Ea, (ESET Ae. WAE PAK Iburg 
KIME EMEKA PRAY A HE, Iburg 将 在 第 14 章 介 绍 。 
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A Retargetable C Compiler: Design and Implementation 


语 人 句 





C 语言 的 语句 语法 格式 如 下 : 


statement: 
ID : statement 
case constant-expression : statement 
default : statement 
[ expression ] ; 
if '(' expression ')' statement 
if '(" expression ')' statement else statement 
switch '(' expression ')' statement 
while '(' expression ')' statement 
do statement while '(' expression ')' ; 
for '(' [ expression ] ; [ expression ] ; [ expression ] ')' 
statement 
break ; 
continue ; 
goto ID ; 
return { expression ] ; 
compound-statement 


compound-statement: 
'{" { declaration } { statement} '}' 


compound-statement 的 实现 参见 11.7 节 。 有 些 语 言 (如 Pascal) 使 用 分 号 来 将 语句 分 开 。 而 在 C 
语言 中 ,分 号 表示 语句 结束 ， 所 以 分 号 出 现在 表达 式 、do-while、break、continue、goto 以 及 返回 
语句 的 产生 式 中 ， 而 不 出 现在 复合 语句 的 产生 式 中 。 


10.1 代码 的 表示 


语句 的 语义 包括 表达 式 的 计算 ， 可 能 还 夹杂 着 跳 转 和 标号 以 实现 控制 的 转换 。 如 1.3 节 所 述 
以 及 将 在 第 12 章 中 详细 介绍 的 ， 表 达 式 首先 被 编译 为 分 析 树 然后 转换 为 dag CHAI). wk 
转 和 标号 也 通过 dag 来 表示 。 每 个 函数 的 这 些 dag 在 代码 表 (code list) 中 被 串 在 一 起 ， 代 码 表 代 
表 了 函数 的 代码 。 编 译 前 端 为 函数 构造 代码 表 并 调用 接口 函数 function。 编 译 后 端 则 调用 gencode 
函数 和 emitcode 函数 来 生成 和 发 送 代码 ， 这 些 将 在 11.6 节 中 介绍 ; 这 些 函 数 都 需要 遍历 代码 表 。 

代码 表 是 一 个 code 结构 类 型 的 双向 链表 : 

(stmt.c typedefs)= “Il 

typedef struct code *Code; 


(stmt.c exported types)= 
struct code { 
enum { Blockbeg, Blockend, Local, Address, Defpoint, 
Label, Start, Gen, Jump, Switch 
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} kind; 
Code prev, next; 
union { 
(Blockbeg 169 ) 
(Blockend 170 ) 
(Local 169 ) 
(Address 169 } 
{(Defpoint 170). 
(Label, Gen, Jump 170) 
(Switch 188 ) 
} u; 
pE 
u 的 每 个 域 对 应 于 上 面 kind 枚 举 值 中 除 Start 以 外 的 一 个 值 ，Start AS iz 32 u AYR, Blockbeg 和 
Blockend 入口 标识 复合 语句 的 边界 。Local 和 Address 标识 必须 通过 local 和 address 接口 函数 来 
通知 编译 后 端的 局 部 变量 。Defpoint 入 口 定义 了 执行 点 的 位 置 ， 例 如 ， 程 序 中 调试 器 可 以 设 断 点 
的 地 方 。Label、Gen 和 Jump 入 口 为 表达 式 、 标 号 和 跳 转 传 递 dag. Switch 入 口传 递 生成 switch 
语句 代码 所 需要 的 数据 。 
代码 表 从 Start 入 口 开始 。codelist 总 是 指向 表 中 最 后 一 个 人 口 : 
(stmt.c data)= 185 


struct code codehead = { Start }; 
Code codelist = &codehead; 


图 10-1 中 上 面 的 图 给 出 了 代码 表 的 初始 状态 。 随 着 函数 中 的 语句 被 编译 ， 入 口 被 不 断 地 添 
加 到 代码 表 中 ， 代 码 表 不 断 增 大 。code 函数 负责 分 配 人 口 ， 并 将 其 链接 到 codelist 所 指向 的 入 口 
之 后 ， 然 后 更 新 codelist 使 其 指向 新 的 人口 ， 这 样 新 和 人口 就 成 为 代码 表 的 最 后 一 个 人 口 。code pki 
数 返 回 一 个 指向 新 入 口 的 指针 : 


(stmt.c functions)= 169 
Code code(kind) int kind; { 
Code cp; 
(check for unreachable code 168) 
NEWCcp, FUNC); 


cp->kind = kind; 
cp->prev = codelist; 
cp->next = NULL; 
codelist->next = cp; 
codelist = cp; 
return cp; 


} 
图 10-1 中 下 面 的 图 给 出 了 添加 两 个 人 口 后 的 代码 表 。 
用 于 标识 代码 表 入 口 的 枚 举 常 量 的 值 很 重要 。 大 于 Start 的 值 会 生成 可 执行 代码 ; 而 小 于 
Label 的 值 并 不 生成 代码 ， 仅 用 于 声明 编译 后 端 感 兴趣 的 信息 。 这 样 ， 如 果 在 一 个 无 条 件 跳 转 指 
令 后 添加 一 个 kind 大 于 Start 的 和 人口， 将 生成 不 能 执行 到 的 代码 ，code 函数 能 够 检测 这 样 的 入 口 : 


(check for unreachable code 168 )= 168 
if (kind > Start) { 
for (cp = codelist; cp->kind < Label; ) 
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cp = cCp->prev; 
if (cp->kind == Jump || cp->kind == Switch) 
warning("“unreachable code\n"); 


} 
控制 并 不 会 使 switch 语 名 失败， 它们 更 像 无 条 件 跳 转 指令 ， 这 将 在 10.7 节 详 细 介 绍 。 
codelist 


codehead: | Start | kind 
prev 
next 


codelist 





图 10-1 初始 代码 表 和 添加 两 个 人 口 之 后 的 代码 表 


除非 局 部 变量 已 经 定义 过 了 ,， 否则 addlocal 函数 为 其 添加 一 个 Local AL: 


{Local 169 ) 三 168 
Symbol var; 


(stmt.c functions) += 168 170 
void addlocal(p) Symbol p; { 
if (!p->defined) { 
code(Local)->u.var = p; 
p->defined = 1; 
p->scope = level; 
} 
} 


addrtree 函数 说 明了 addlocal 函数 的 用 法 ， 还 说 明了 code 函数 如 何 添加 Address AF, Address A 
口 为 gencode 函数 调用 接口 函数 address 传递 必要 的 数据 。 


(Address 169 )= 168 
struct { 
Symbol sym; 
Symbol base; 
int offset; 
} addr; 


当 gencode 函数 处 理 Address 入 口 时 ， 它 将 sym. base 和 offset 3 个 域 的 值 作为 address 函数 的 3 
个 参数 。 
Blockbeg 人 口中 存储 了 编译 复合 语句 所 需 的 信息 : 
(Blockbeg 169 )= 168 
struct { 


int level; 
Symbol *locals; 
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Table identifiers, types; 
Env x; 
} block; 


level 表示 的 是 与 代码 块 相关 的 lev el (A, locals 是 一 个 以 null 结尾 的 数组 ， 该 数组 中 存放 了 代码 
块 中 声明 的 局 部 变量 的 符号 表 指 针 。x 表示 代码 块 在 编译 后 端 中 的 Env 值 。 当 代码 块 被 编译 时 ， 
identifiers 和 types 记录 identifiers 和 types 表 ; 本 书 中 忽略 了 使 用 这 些 数据 的 代码 ， 这 些 代码 用 来 
生成 选项 -g 规定 的 调试 器 符号 表 信 息 。Blockend 入 口 仅 指向 与 它 匹配 的 Blockbeg: 


(Blockend 170)= 168 
Code begin; 

Label, Gen 和 Jump 入 口 都 存放 了 指向 森林 的 指针 : 

(Label, Gen, Jump 170)= 168 


Node forest; 


每 个 人 口 都 通过 枚 举 常 量 来 标识 ， 因 此 无 须 检查 dag 就 可 知道 其 用 途 。 例 如 ，code 函数 就 使 用 枚 
举 常量 来 识别 跳 转 ，10.9 节 中 也 用 它 来 去 掉 那 些 跳 转 到 跳 转 的 指令 和 无 法 执行 到 的 跳 转 指令 。 


10.2 执行 点 


执行 点 可 以 出 现在 本 章 一 开始 描述 的 语法 中 的 每 个 表达 式 之 前 、&& 和 || 的 操作 数 之 前 、 操 
作 符 ? : 的 第 二 操作 数 和 第 三 操作 数 之 前 、 每 个 复合 语句 的 开始 和 结束 处 ， 以 及 每 个 函数 的 入 口 
和 出 口 。 它 们 给 编译 后 端 为 调试 器 生成 代码 和 符号 表 信 息 的 机 会 ， 这 些 编译 后 端 实现 了 5.2 节 提 
及 的 stab 接口 函数 。 例 如 ， 调 试 器 允许 在 执行 点 设置 断 点 。 

执行 点 和 事件 还 可 以 用 来 实现 lee 编译 器 产生 执行 剖面 的 功能 。-b 选项 使 得 lcc 编译 器 可 以 
生成 代码 以 计算 每 个 执行 点 的 执行 次 数 并 将 这 些 次 数 写 入 文件 。-a 选项 使 得 该 文件 在 编译 时 可 以 
读 取 并 且 可 以 用 来 计算 refine 的 值 ， 给 出 了 精确 的 执行 频率 而 不 是 一 个 估计 的 执行 频率 。 

执行 点 入 口 记录 了 标识 该 执行 点 的 源 程序 位 置 和 一 个 唯一 编号 : 


(Defpoint 170 )= 168 
struct { 
Coordinate src; 
int point; 
} point; 


definept 函数 将 Defpoint 入 口 添加 到 代码 表 中 ， 并 填 上 一 个 明确 的 坐标 值 或 sre 的 当前 值 : 


(stmt.c functions) += 169 1) 
void definept(p) Coordinate *p; { 
Code cp = code(Defpoint); 


cp->u.point.src = p ? *p : src; 
cp->u.point.point = npoints; 
(reset refinc if -a was specified) 
if (events.points) 
(plant event hook) 


证 4] 171 


通常 ， 调 用 definept 时 使 用 一 个 空 指针 作为 参数 ， 但 是 循环 和 switch 语句 会 在 语句 结束 时 生 
成 测试 和 赋值 代码 ， 因 此 ， 生 成 的 代码 中 执行 点 的 顺序 与 它们 在 源 代码 中 的 顺序 是 不 同 的 。 对 于 
这 些 执行 点 ， 当 分 析 表 达 式 时 ， 相 关 的 坐标 值 就 会 保存 下 来 ， 并 在 生成 该 表达 式 的 代码 时 将 保存 
的 坐标 值 传递 给 definept 函数 ; 例如 ，forstmt 函数 中 对 definept 函数 的 调用 。 


10.3 语句 的 识别 
语句 分 析 函 数 使 用 当前 单词 来 标识 语句 的 种 类 ， 并 根据 不 同 的 种 类 切换 到 相应 的 代码 处 理 ; 


(stmt.c functions) += 170 173 
void statement(loop, swp, lev) int loop, lev; Swtch swp; { 
float ref = refinc; 


if (Aflag >= 2 && lev == 15) 
warning("more than 15 levels of nested statements\n"); 


switch (t) { 

case IF: (if statement 173) break; 

case WHILE: (while statement) break; 

case DO: (do statement) (semicolon 171) 
case FOR: (for statement 176) break; 


case BREAK: (break statement180) (semicolon 171) 
case CONTINUE: (continue statement 176) (semicolon 171) 
case SWITCH: (switch statement i80) break; 

case CASE: (case label 181) break; 

case DEFAULT: (default label 181) break; | 

case RETURN: (return statement 189) (semicolon 171) 


case '{': compound(loop, swp, lev + 1); break; 

case ';': definept(NULL); t = gettokQ); break; 

case GOTO: (goto statement 17S) (semicolon 171) 

case ID: (statement label or fall thru to default 174) 
default: (expression statement 172) (semicolon 171) 
} 


(check for legal statement termination 171) 
refinc = ref; 


} 

(semicolon 171)= 171 
expect(';'); 
break; 

(check for legal statement termination 171)= 171. 


if (kind[t] != IF & kind[t] != ID 

&& t != '}' & t != EOI) { 
static char stop[] = { IF, ID, '}', 0}; 
error("illegal statement termination\n"); 
skipto(0, stop); 

} 


statement KAA 3 个 参数 : loop 表示 的 是 最 内 层 的 for, while 或 do-while 循环 的 标号 ; swp # 
示 的 是 一 个 指针 ， 该 指针 指向 保存 有 属于 最 内 层 switch 语句 的 所 有 数据 的 swtch 结构 (参见 10.7 
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节 ); 而 lev ANKE AAA REE. WR SAT IA REEL EM, loop 就 等 
于 0; 如 果 它 不 在 任何 switch 语句 中 ，swp 就 为 室 。 在 生成 break 和 continue 语句 的 代码 时 要 用 
到 loop， 生 成 switch 语句 的 代码 需要 用 到 swp, m lev 仅仅 用 于 statement 函数 开始 时 产生 警告 信 
息 。 每 一 种 语句 的 代码 都 将 这 些 值 传递 给 府 套 的 statement 调用 ， 并 做 相应 的 修改 。 

loop 循环 中 使 用 的 标号 都 是 局 部 标号 ， 它 们 通过 调用 genlabel(n) 生成 。genlabel(n) 返回 n 个 
标号 中 的 第 一 个 。findlabel(n) 返回 标号 n 在 符号 表 中 的 人 口 。 

对 于 标识 符 的 每 次 引用 ，idtree 函数 都 会 将 该 标识 符 的 ref 域 增加 refinc。ref 域 的 值 与 该 标识 
符 的 引用 次 数 几 乎 是 成 比例 的 。statement 函数 及 其 调用 的 函数 可 以 改变 refine 的 值 以 实现 标识 符 
在 不 同 地 方 的 引用 具有 不 同 的 权 值 。 例 如 ， 对 于 出 现在 让 语 名 分支 中 的 引用 ，refinc 等 于 refinc 
除 以 2， 而 对 于 loop 循环 体 中 的 引用 ，refinc 等 于 refine 乘 以 10。ref 域 的 值 用 来 帮助 标识 那些 适 
合 指派 给 寄存 器 的 局 部 变量 和 参数 ， 此 外 ， 局 部 变量 也 是 按照 ref 值 的 降序 通知 编译 后 端的 。 

switch 语句 的 默认 分 支 处 理 作 为 语句 的 表达 式 : 


(expression statement172)= 171 
definept (NULL); 
if (kind[t] != ID) { 
error("unrecognized statement\n"); 
t = gettok(); 
} else { 
Tree e = expr0(0); 
listnodes(e, 0, 0); 
if (nodecount == 0 || nodecount > 200) 
walk(NULL, 0, 0); 
deal locate(STMT) ; 


listnodes 和 walk 这 两 个 函数 从 分 析 树 生成 dag。 它 们 的 实现 将 在 第 12 章 详细 解释 ， 但 是 为 了 理 
解 编译 前 端 是 如 何 实现 语句 的 语义 分 析 的 ， 现 在 必须 解释 一 下 它们 的 用 法 。 

listnodes 函数 的 第 一 个 参数 是 一 棵 分 析 树 ， 如 第 5 章 介绍 的 ，listnodes 函数 根据 该 分 析 树 生 
成 dag， 并 将 该 dag 添加 到 由 其 维护 的 不 断 增长 的 森林 中 。 这 样 ， 上 面 对 listnodes 函数 的 调用 ， 
就 根据 expr0 函数 返回 的 分 析 树 生成 dag， 并 将 其 添加 到 森林 中 。 对 于 如 下 输入 : 

= ae 

d = a+b; 
<expression statement> 代码 段 会 被 执行 3 次 ,每 次 处 理 一 条 语句 ， 因 此 Tistnodes 函数 就 被 调用 了 
3 次 。 第 一 次 调用 将 c= atb 的 dag 添加 到 初始 的 空 森林 中 ， 第 二 次 和 第 三 次 调用 通过 添加 第 二 个 
和 第 三 个 语句 的 dag 使 得 森林 不 断 增 大 。 在 12.1 节 将 会 看 到 ， 如 果 有 可 能 ，listnodes KASEH 
公共 子 表达 式 ; 例如 ， 在 赋值 语句 d=a+b 中 ， 它 会 重用 第 一 个 赋值 语句 形成 的 a 的 左 值 和 b 的 右 
值 的 dag。 但 因为 第 二 个 赋值 语句 改变 了 a， 所 以 不 能 重用 a 的 右 值 。 

listnodes 函数 的 第 二 个 和 第 三 个 参数 是 标号 ， 它 们 的 作用 将 在 下 一 节 介 绍 ; 上 面 listnodes K 
数 调用 中 的 0 表示 没有 标号 。listnodes 函数 还 可 以 接受 空 树 ， 直 接 返 回 空 。 

listnodes 函数 保持 森林 直到 walk 函数 被 调用 ，walk 函数 接受 的 参数 与 listnodes 函数 的 参数 
相同 。walk 函数 的 处 理 分 两 步 : 第 1 步 ， 它 将 参数 传递 给 listnodes 函数 ， 所 以 调用 walk 函数 与 
调用 listnodes 函数 有 相同 的 作用 。 第 2 步 ， 也 是 最 重要 的 ，walk 函数 分 配 一 个 Gen REKAO, 
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将 森林 保存 在 该 人 口中 ， 再 将 该 人 口 添加 到 代码 表 中 ， 然 后 清除 森林 。 一 旦 将 森林 添加 到 代码 表 
中 ， 它 的 dag 就 不 能 被 listnodes 函数 重用 了 。 

walk(NULL,0,0) 高 效 地 只 执行 第 2 步 ， 如 果 当 前 森林 非 空 ， 就 将 它 添 加 到 代码 表 中 。 只 要 需 
要 将 当前 森林 添加 到 代码 表 中 ， 就 可 以 调用 该 函数 。 例 如 其 他 一 些 可 执行 的 代码 表 入 口 要 添加 进 
来 ， 或 者 两 个 或 多 个 分 离 的 控制 流 要 合并 。 在 上 面 的 代码 中 ， 当 nodecount 等 于 0 或 者 超过 200 
时 就 会 执行 该 调用 。nodecount 表示 森林 中 可 以 重用 的 节点 数 。 当 森林 没有 可 重用 的 节点 或 者 当 
森林 变 大 时 ，walk 函数 就 会 被 调用 。 前 一 个 条 件 将 不 含 共享 公共 子 表达 式 的 dag 添加 到 不 同 的 和 森 
林 中 ， 而 后 一 个 条 件 是 限制 森林 的 大 小 的 ; 两 种 结果 对 编译 后 端 都 很 有 用 。 

deallocate 函数 释放 STMT 分 配 区 中 的 所 有 空间 ， 而 STMT 分 配 区 也 就 是 为 分 析 树 分 配 内 存 
空间 的 地 方 。walk 函数 也 释放 STMT 分 配 区 的 空间 。 


10.4 j 半 语句 


为 证 语句 生成 的 代码 有 如 下 的 形式 : 


if expression == 0 goto L 
Statement, 
goto L+1 

L: statement 

L+1: 


如 果 省 略 了 else 部 分 ， 那 么 goto LH 语句 也 随 之 忽略 。 处 理 代 码 是 : 


(if statement 173)= 171 
ifstmt(genlabel(2), loop, swp, lev + 1); 


(stmt.c functions) += a en gA 
static void ifstmt(lab, loop, swp, lev) 
int lab, loop, lev; Swtch swp; { 

t = gettok(); 

expect('('); 

definept(NULL); 

walk(conditional(')"), 0, lab); 

refinc /= 2.0; 

statement(loop, swp, lev); 

if (t == ELSE) { 
branch(lab + 1); 
t = gettok(); 
definelab(1ab); 
statement(loop, swp, lev); 
if (findlabel(Jab + 1)->ref) 

definelab(lab + 1); 

} else 

definelab(lab); 
} 


ifstmt 函数 的 第 一 个 参数 是 L，genlabel(2) 生成 让 语句 中 使 用 的 两 个 标号 。ifstmt 的 另外 3 个 
参数 就 是 statement 的 3 个 参数 。conditional 函数 通过 调用 expr 函数 来 分 析 表 达 式 ， 确 保 结果 树 
是 一 个 条 件 表达 式 ， 该 表达 式 的 值 只 用 来 改变 控制 流 。 条 件 表达 式 分 析 树 的 根 是 下 列 条 件 操作 符 
中 的 一 个 : 
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AND, OR, NOT 或 者 常量 。conditional 函数 的 参数 就 是 在 调用 conditional 函数 的 上 下 文中 紧 接 
着 表达 式 的 单词 。 
(stmt.c functions) += 173 


static Tree conditional(tok) int tok; { 
Tree p = expr(tok); 
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if (Aflag > 1 & isfunc(p->type)) 
warning("%s used in a conditional expression\n", 
funcname(p)) ; 
return cond(p); 
} 


listnodes 和 walk 函数 的 第 二 个 和 第 三 个 参数 是 表示 true 或 false 目标 的 标号 。walk(e，tlab， 
flab) 将 其 参数 传递 给 listnodes 函数 。 而 正如 上 一 节 所 说 的 ，listnodes 函数 根据 e 生成 dag 并 将 它 
添加 到 森林 中 ， 并且 还 将 一 个 保存 了 森林 的 Gen 入 口 添加 到 代码 表 中 。 如 果 e 是 一 个 条 件 表达 
式 的 分 析 树 ， 那 么 tlab BY flab 不 等 于 0。 如果 tla 不 等 于 0, 若 e 的 结果 不 等 于 0， 那 么 listnodes 
函数 就 生成 将 控制 转移 到 tlab 的 dag; 否则 ， 如 果 e 计算 结果 等 于 0， 则 listnodes 函数 生成 跳 转 
到 flab 的 dag。 即 使 tab 和 flab 都 非 零 ， 也 只 能 有 一 次 用 非 零 值 调 用 listnodes 和 walk 函数 ; 对 于 
其 他 情况 控制 就 会 失败 。 

对 于 这 语句 ， 在 上 面 的 生成 代码 中 ，walk 函数 是 用 与 工 对 应 的 非 零 值 ab 来 调用 的 。 
definelab 和 branch 函数 为 标号 定义 和 跳 转生 成 代码 表 项 。 只 有 需要 时 才 定 义 L+1。 每 当 标 号 被 用 
作 分 支 的 目标 时 ， 它 的 ref 域 就 会 增加 。 例 如 ， 如 果 没 有 转 到 LH 的 分 支 ， 标 号 L+1 也 就 没有 必 
要 了 ， 下 面 的 代码 会 出 现 这 种 情况 ; 


PE 过 = 二 
return; 
else 


返回 语句 的 作用 类 似 于 一 个 无 条 件 跳 转 指令 ， 所 以 调用 branch(lab+1) 不 会 产生 分 支 代码 。 

在 idtree 函数 中 ， 每 次 对 标识 符 的 引用 ， 都 会 使 该 标识 符 的 ref 增加 refine. lec 估计 站 语句 
的 每 一 个 分 支 被 执行 的 次 数 大 致 相同 ， 所 以 在 分 析 让 语句 的 分 支 之 前 ，refinc 被 二 等 分 。 这 样 做 
的 结果 是 ， 在 每 个 分 支 中 对 标识 符 引 用 的 次 数 是 让 语句 之 前 和 之 后 的 语句 中 引用 次 数 的 一 半 。 由 
F statement 函数 已 经 恢复 了 refine 的 值 ， 所 以 ifstmt 函数 就 不 必 再 恢复 了 。 


10.5 标号 和 goto 语句 


对 于 一 个 以 标识 符 开始 的 语句 ， 如 果 它 后 面 紧 接 着 一 个 冒号 ， 那么 该 标识 符 就 是 一 个 标号 ， 
否则 ， 它 就 是 一 个 表达 式 的 开始 。 


(statement label or fall thru to default 174)= 171 
if (getchr(Q) == ':') { 
stmt label(); 
statement(loop, swp, lev); 
break; 


} 
getchr 函数 恰好 处 理 到 下 一 个 单词 符号 的 开始 字符 并 返回 该 字符 。 该 字符 被 用 来 向 前 搜索 一 
个 字符 ， 以 检查 是 否 为 冒号 。 由 于 标识 符 既 可 以 是 一 个 标号 ， 同 时 也 可 以 是 一 个 变量 ， 所 以 需要 
一 个 独立 的 表 stmtlabs 保存 源 语言 标号 : 


175 


aK 
& 


{stmt.c exported data) = 
extern Table stmtlabs; 


像 其 他 表格 一 样 ，stmtlabs 也 由 lookup 函数 和 install 函数 管理 。 它 将 源 语言 中 的 标号 映射 为 内 部 
标号 ， 内 部 标号 存储 在 符号 的 u.l.label 域 中 。 


(stmt.c functions)+= 174 177 
static void stmtlabelQ) { 
Symbol p = lookup(token, stmtlabs); 


(install token in stmt labs, if necessary 175) 
if (p->defined) 
error("redefinition of label '%s' previously _ 
defined at %w\n", p->name, &p->src); 
p->defined = 1; 
definelab(p->u.1. label); 
t = gettok(); 
expect(':'); 
} 


definelab(n) 构建 了 一 个 用 于 定义 标号 n 的 LABELV dag， 分 配 一 个 保存 该 dag 的 Label 代码 表 人 


口 ， 并 将 该 Label 入 口 添 加 到 代码 表 中 。 
标号 可 在 被 引用 之 前 定义 ， 反 之 亦 可 ， 因 此 ， 当 它们 作为 一 个 语句 标示 出 现 ， 或 者 出 现在 


goto 语句 中 时 ， 都 可 以 建立 到 表 中 。 


(install token in stmtlabs, if necessary 175 )= 175 
if (p == NULL) { 
p = install(token, &stmtlabs, 0, FUNC); 
p->scope = LABELS; 
p->u.1].label = genlabel(1); 
p->src = src; 


} 
标号 的 ref 域 用 来 对 标号 的 引用 次 数 进行 计数 ， 由 install 函数 初始 化 为 0。 标 号 每 引用 一 次 ， 
它 的 ref 域 就 被 加 1: 


(goto statement 175)= 171 

walk(NULL, 0, 0); 

definept(NULL); ; - 

t = gettok(); 

if (t == ID) { 
Symbol p = lookup(token, stmtlabs); 
(install token in stmtlabs, if necessary 175) 
use(p, src); 
branch(p->u.1. label); 
t = gettok(); 

} else 
error("missing label in goto\n"); 


branch(n) 为 转 到 标号 n 的 分 支 构建 了 一 个 JUMPV dag， 并 分 配 Jump 代码 表 入 口 以 保存 该 dag, 
然后 将 该 Jump 入 口 添加 到 代码 表 中 。 同 时 还 将 n 的 ref 域 加 1。 
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funcdefn 函数 在 函数 定义 结束 时 调用 checklab 函数 ， 以 发 现 并 通知 那些 未 定义 的 标号 (也 就 
是 那些 在 goto 语句 中 引用 的 ， 但 从 来 没 定义 过 的 标号 )。 
10.6 ”循环 


为 3 种 不 同 循环 生成 的 代码 都 有 类 似 的 结构 ， 它 们 都 涉及 3 个 标号 : LERA, LH 表 
示 循 环 的 条 件 测试 部 分 、L+2 表示 循环 出 口 。 例 如 ，while 循环 生成 的 代码 如 下 : 


goto L+1 
fà statement 
L+1: if expression != 0 goto L 
L+2: 
这 种 代码 结构 要 比 下 面 的 代码 好 : 
i: 
L+1: if expression != 0 goto L+2 
statement 
goto L 
L+2: 


当 循 环 体 执行 n 次 时 ， 前 一 种 代码 执行 了 n+2 个 分 支 指令 ， 而 第 二 种 结构 很 明显 执行 了 2n +1 个 
分 支 指令 。 
continue 语句 的 代码 会 跳 转 到 L+1， 而 break 语句 的 代码 会 跳 转 到 L+2。 L 是 循环 句柄 ， 它 被 
传递 到 statement 及 其 调用 的 函数 (这 与 ifstmt 函数 需要 工作 为 参数 一 样 )。 例 如 ， 仅 当 存 在 一 个 
循环 句柄 时 ，continue 语句 才 是 合法 的 : 
(continue statement 176)= 171 
walk(NULL, 0, 0); 
definept (NULL); 
if Coop) 
branch(loop + 1); 
else 


error("illegal continue statement\n"”); 
t = gettok(); 


for 循环 语句 有 4 个 标号 ， 其 中 前 3 个 与 while 循环 中 的 标号 意义 相同 。 当 for 循环 的 3 个 控 
制 表达 式 都 存在 时 ， 生 成 的 代码 结构 如 下 所 示 : 


expression, 
goto L+3 
L: statement 
L+1: expression; 
L+3: if expressionz != 0 goto L 
L+2: 


expression,, expression, 和 expression, 分 别称 为 初始 化 表达 式 、 条 件 测试 表达 式 和 增 量 表达 式 。 
分 析 函 数 的 复杂 性 主要 表现 在 处 理 可 选 的 表达 式 ， 确 定 可 执行 点 的 正确 位 置 ， 以 及 实现 至 少 
执行 一 次 循环 体 的 循环 的 优化 。 
(for statement 176 )= 171 
forstmt(genlabel(4), swp, lev + 1); 


(stmt.c functions) += 175 180 
static void forstmt(lab, swp, lev) 
int lab, lev; Swtch swp; { 
int once = 0; 
Tree el = NULL, e2 = NULL, e3 = NULL; 
Coordinate pt2, pt3; 


t = gettok(); 
expect('('); 
definept (NULL) ; 
(forstmt 177) 

} 


首先 分 析 初 始 化 表达 式 ， 并 添加 到 代码 表 中 


(forstmt 177)= 177 177 
if (kind[t] == ID) 
el = texpr(exprd, ';', FUNC); 
else 
expect(';'); 
walk(el, 0, 0); 


接 下 来 分 析 条 件 测试 表达 式 ， 但 是 只 有 等 到 循环 体 编译 完 后 ， 才 能 将 它 传递 给 walk 函数 。 赋 值 
语句 pt2=src 保存 了 条 件 测 试 表达 式 在 源 程序 中 的 位 置 ， 在 将 条 件 测 试 表 达 式 的 分 析 树 传递 给 
walk 函数 之 前 ， 需 要 该 位 置 调用 definept 函数 。 
(forstmt 177) += mig 17 
pt2 = src; 


refinc *= 10.0; 
if (kind[t] == ID) 


e2 = texpr(conditional, ';', FUNC); 
else 
expect(';"); 


walk 函数 有 一 种 重要 的 副作用 : 释放 STMT 分 配 区 tree 函数 在 该 分 配 区 内 为 分 析 树 分 配 内 存 空 
间 。texpr 函数 在 FUNC 分 配 区 内 为 条 件 测试 表达 式 的 分 析 树 分 配 内 存 空间 ， 这 些 空间 直到 循环 
体 编译 完 、 调 用 walk 函数 时 一 直 有 效 。 处 理 增 量 表达 式 时 也 要 用 到 texpr 函数 : 


(forstmt 177)+= 177 178 177 
pt3 = src; 
if (kind[t] == ID) 
e3 = texpr(expr0, ')', FUNC); 
else { 
static char stop[] = { IF, ID, '}', 0 }; 
test(')', stop); 
} 


pt3 保存 了 增 量 表达 式 在 源 程序 中 的 位 置 ， 将 来 调用 definept 函数 需要 该 位 置 。 
loo 估计 循环 体 执行 的 次 数 是 循环 外 的 语句 执行 次 数 的 10 倍 ， 因 此 refine 等 于 10 乘 以 
refnc， 这 便 相 应 地 设 定 了 循环 体内 引用 标识 符 的 权 值 。 
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KBR for 循环 都 类 似 于 下 面 的 代码 : 
sum = 0; 
for (i = 0; i < 10; i++) 
sum += x[i]; 
这 类 循环 的 循环 体 至 少 会 被 执行 一 次 ， 刚 开始 的 goto L+3 语句 可 以 省 略 ， 下 面 的 代码 实现 了 这 种 
情况 : i 
(forstmt 177)+= 7178 177 
if (e2) { 
once = foldcond(el, e2); 
if Clonce) 
branch(lab + 3); 
} 


foldcond 函数 检查 初始 化 表达 式 和 条 件 测 试 表 达 式 的 分 析 树 ， 以 判断 循环 体 是 否 至 少 被 执行 一 
次 ; 参见 练习 10.3。el 传递 给 foldcond 函数 ， 所 以 上 面 的 代码 中 需要 使 用 texpr 函数 分 析 elo 
forstmt 函数 的 其 余部 分 用 来 编译 循环 体 并 生成 上 述 的 标号 和 表达 式 。 


(forstmt 177) += 178 177 
definelab(lab); 
statement(lab, swp, lev); 
definelab(lab + 1); 
definept(&pt3); 
if (e3) 
walk(e3, 0, 0); 

if (e2) { 
if Clonce) 

definelab(lab + 3); 

definept(&pt2); 
walk(e2, lab, 0); 

} else { 
definept(&pt2); 
branch(lab); 


} 
if (findlabel(lab + 2)->ref) 
definelab(lab + 2); 
生成 的 标号 的 符号 表 入 口 是 通 过 findlabel 函数 加 载 到 labels 表 中 的 。 像 其 他 标号 一 样 ， 如 果 生 成 
的 标号 是 跳 转 目标 ， 则 该 标号 的 ref 域 就 不 等 于 0。 


10.7 switch 语句 


C 语言 的 switch 语句 与 其 他 语言 (如 Pascal) 的 case 语句 有 很 大 的 不 同 。 任 何 语句 都 可 以 跟 
在 switch 子 句 的 后 面 ，switch 语句 的 语法 并 没有 明确 规定 case 标号 和 default 标号 的 位 置 。 另 外 ， 
“在 执行 完 某 个 case 标号 标识 的 分 支 语句 后 ， 控 制 就 会 转换 到 下 一 个 语句 ， 该 语句 可 能 有 另外 一 个 
case 标号 标识 。case 标号 和 default 标号 只 是 简单 的 标号 ， 并 没有 其 他 语义 。 例 如 : 


switch (n%4) 
while (n > 0) { 
case 0: *x++ = *y++; n--; 
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case 3: *x++ = *y++; N--; 
case 2: *X++ = *y++; Nn--; 
case 1: *x++ = *y++; Nn--; 
} 
该 代码 的 功能 为 当 n 大 于 等 于 1 时 ， 从 y 中 复制 n 个 值 到 x 中 。 如 果 该 循环 被 展开 ， 则 每 次 循环 
复制 4 个 值 。switch 语句 复制 前 n%4 个 值 ， 而 /4 次 迭代 复制 其 余 的 值 。 这 个 例子 虽然 不 自然 ， 
但 也 还 是 合法 的 。 
对 于 一 个 具有 n 个 case 分 支 和 一 个 default 分 支 的 switch 语句 ， 生 成 的 代码 具有 如 下 所 示 的 
形式 : 
tl 一 expression 
select and jump to Li,..., Las kL 


code for statement 
L+1: 


这 里 t 是 一 个 与 switch 语句 相关 的 临时 变量 ， 而 L+1 是 一 个 出 口 标号 。 每 一 个 case 标号 为 它 所 


生成 的 标号 工 ; 生成 一 个 定义 ， 默 认 标号 为 工 生成 一 个 定义 ，switch 语句 中 的 每 个 break 语句 都 生 
成 一 个 跳 转 到 出 口 标号 的 代码 : 


goto L+1 


如 果 没 有 默认 分 支 , 工 就 和 LH 代表 相同 的 地 址 。 

分 析 switch 语句 、case 标号 、default 标 号 以 及 break 语 句 都 比较 简单 ， 困 难 的 是 为 <select 
and jump> 程序 段 生 成 好 的 代码 。 每 一 个 case 标号 都 与 一 个 整数 值 关联 。 这 些 值 -标号 对 用 来 根 
据 expression 的 值 选择 跳 转 到 相应 的 分 支 。 这 些 数据 同 其 他 数据 一 起 存放 在 与 switch 语句 相关 的 
swtch 结构 中 : 


(stmt.c typedets) += 167 
typedef struct swtch *Swtch; 


(stmt.c types)= 

struct swtch { 
Symbol sym; 
int lab; 
Symbol deflab; 
int ncases; 
int size; 
int *values; 
Symbol *labels; 

}; 


sym 中 保存 的 是 临时 变量 tl 的 值 ，lab 保存 了 工 的 值 ， 如 果 有 default 标 号 ，deflab 就 指 间 default 
标号 在 符号 表 中 的 入口 。values 和 labels 指向 保存 了 值 -标号 对 的 数组 。 这 两 个 数组 都 具有 size 个 
元 素 ， 其 中 ncases TCR OHA, Hix ncases 个 元 素 按照 values 的 升序 排列 。 指 向 当前 switch 语 
名 的 swtch 结构 (也 就 是 一 个 switch 句柄 ) 的 指针 ， 会 被 传递 给 statement 函数 及 其 调用 的 函数 。 

case 标号 和 default 标号 的 处 理 与 break 和 continue 语句 的 处 理 非常 类 似 : case 标号 和 default 
标号 与 最 内 层 或 当前 的 switch 语句 相关 ， 当 switch 句柄 为 空 时 ， 即 case 标号 和 default 标号 出 现 
在 switch 语句 之 外 ， 就 会 导致 报错 。break 语句 的 代码 通过 检查 循环 句柄 和 switch 句柄 来 判断 它 
是 否 与 某 个 循环 或 switch 语句 关联 : 
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(break statement 180)= 171 
walk(NULL, 0, 0); 
definept (NULL) ; 
if (swp && swp->lab > loop) 
branch(swp->lab + 1); 
else if Cloop) 
branch(loop + 2); 
else : 
error("illegal break statement\n"); 
t = gettokQ); 


随 着 标号 的 生成 ， 标 号 的 值 不 断 增加 ， 所 以 如 果 存 在 一 个 switch 句柄 且 它 的 工 值 比 循环 句柄 大 ， 
那么 该 break 语句 与 switch 语句 相关 。 

分 析 一 个 switch 语句 要 涉及 以 下 几 个 方面 : 对 表达 式 的 分 析 和 类 型 检查 、 生 成 临时 变量 、 在 
代码 表 中 添加 一 个 Switch 占 位 符 、 初 始 化 一 个 新 的 switch 句柄 并 将 它 传递 给 statement PAA. AE 
成 结束 标号 和 选择 代码 等 。 


(switch statement 180)= 171 
swstmt(loop, genlabel(2), lev + 1); 
(stmt.c macros)= 185 
#define SWSIZE 512 
(stmt.c functions) += 17 182 
static void swstmt(loop, lab, lev} int loop, lab, lev; { 
Tree e; 


struct swtch sw; 
Code head, tail; 


t = gettok(); 
expect('('); 
definept (NULL) ; 
e = expr(')'); 
(type-check e 130) 
(generate a temporary to hold e, if necessary 181) 
head = code(Switch); 
sw. Jab = lab; 
sw.deflab = NULL; 
Sw.ncases = 0; 
sw.size = SWSIZE; 
sw.values = newarray(SWSIZE, sizeof *sw.values, FUNC); 
sw.labels = newarray(SWSIZE, sizeof *sw.labels, FUNC): 
refinc /= 10.0; 
statement(loop, &sw, lev); 
(define L, if necessary, and L + 1 183) 
(generate the selection code 184) 
} 


生成 选择 代码 时 ， 代 码 表 中 的 Switch 入 口 占 位 符 就 会 被 一 个 或 多 个 Switch AD HAL. switch 表 


达 式 必须 是 整数 类 型 ， 并 可 能 被 提升 : 


(type-check e 180 )= 180 
if (!isint(e->type)) { 
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error("itlegal type '%t" in switch expression\n", 
e->type); 
e = retype(e, inttype); 
y 
e = cast(e, promote(e->type)); 


临时 变量 也 具有 e->type 类 型 ， 但 是 在 有 些 情 况 下 可 以 不 需要 临时 变量 。 如 果 switch 表达 式 是 一 
个 简单 的 标识 符 ， 并且 类 型 正确 又 不 是 可 变 类 型 ， 那 么 就 可 以 直接 使 用 它 。 否 则 ,该 表达 式 就 赋 
值 给 临时 变量 : 


(generate a temporary to hold e, if necessary \8\)= 180 
if (generic(e->op) == INDIR && isaddrop(e->kids[0]->op) 
&& e->kids[0]->u.sym->type == e->type 
&& !isvolatile(e->kids[0]->u.sym->type)) { 

sw.sym = e->kids[O]->u.sym; 
walk(NULL, 0, 0); 
} else { 
sw.sym = genident(REGISTER, e->type, level); 
addlocal (sw. sym) ; 
walk(asgn(sw.sym, e), 0, 0); 
} 


一 日 switch 句柄 被 初始 化 ，case 标号 和 default 标号 就 可 以 将 数据 添加 到 句柄 中 。 例 如 ， 如 
果 一 个 句柄 的 deflab 域 还 没有 被 填充 ， 则 default 标号 填充 该 域 : 


(default label 181)= 171 
if (swp == NULL) 
error("illegal default label\n"); 
else if Cswp->deflab) 
error("extra default label\n"); 
else { 
swp->deflab = findlabel (swp->lab); 
definelab(swp->deflab->u.1. label); 
} 
t = gettokQ); 
expect(':'); 
statement(loop, swp, lev); 


case 标号 与 此 类 似 ， 标 号 的 值 被 转换 为 switch 表达 式 的 提升 类 型 ， 同 时 生成 和 定义 与 该 值 关联 的 
标号 : 


(case label 181 )= 171 
{ 
int lab = genlabel(1); 
if (swp == NULL) 
error("illegal case label\n"); 
definelab(lab); 
while (t == CASE) { 
static char stop[] = { IF, ID, 0 }; 
Tree p; 
t = gettok(); 
p = constexpr(0); 
if (generic(p->op) == CNST && isint(p->type)) { 
if Cswp) { 
needconst++; 
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p = cast(p, swp->sym->type) ; 

needconst--; 

caselabel(swp, p->u.v.i, lab); 
} 


} else 
error("case label must be a constant _ 


integer expression\n"); 
test. stop); 
} 
statement(loop, swp, lev); 


} 


在 调用 cast 函数 之 前 needconst 会 自 增 ， 这 样 即 使 发 生 溢 出 ，simplify 函数 也 能 合并 转换 。 例 如 对 
如 下 输入 : 

ibt ts 

switch (i) 

case OxfffffffT: ; 


因为 该 case 值 是 一 个 无 符号 数 ， 不 能 表示 成 整数 ， 所 以 会 产生 如 下 诊断 信息 : 
warning: overflow in constant expression 


值得 注意 的 是 ， 即 使 一 个 case 标号 出 现在 switch 语句 的 外 面 ， 它 也 会 被 处 理 。 这 样 就 可 以 防止 
case 标号 引起 其 他 的 语法 错误 。 
caselabel 函数 负责 将 值 和 标号 添加 到 switch 句柄 中 的 values 和 labels 数组 中 。 它 还 负责 对 重 
复 标 号 进行 检查 : 
(stmt.c functions) += 180 185 
static void caselabel(swp, val, Tab) 


Swtch swp; int val, lab; { 
int k; 


if (swp->ncases >= swp->size) 
(double the size of values and labels) 

k = swp->ncases; 

for ( ; k > 0 && swp->values[k-1] >= val; k--) { 
swp->values[k] = swp->values[k-1]; 
swp->labels[k] = swp->labels[k-1]; 


if (k < swp->ncases && swp->values[k] == val) 
errorC"duplicate case label ‘%d'\n", val); 

swp->values(k] = val; 

swp->labels[k] = findlabel (lab); 

++Swp->ncases; 

if (Aflag >= 2 && swp->ncases == 258) 
warning("more than 257 cases in a switch\n"); 


} 
上 面 的 for 循 环 将 新 标号 和 值 插入 values 和 labels 数组 的 合适 位 置 ， 使 数组 元 素 按 值 的 升序 来 排 
序 ， 这 将 有 助 于 检查 重复 的 标号 值 和 生成 好 的 选择 代码 。 如 果 有 必要 ， 这 些 数组 大 小 可 以 加 售 以 
适应 新 的 值 -标号 对 。 


x 
oy 
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在 statement 函数 返回 到 swstmt 函数 之 后 ， 如 果 没 有 显 式 的 default 标号， 就 定义 default 标 
号 ， 如 果 引 用 了 出 口 标 号 ， 则 定义 出 口 标号 L+: 


(define L, if necessary, and L + 1183)= 180 
if (sw.deflab == NULL) { 
sw.deflab = findlabel (lab); 
definelab(1ab); 
if (sw.ncases == 0) 
warning("switch statement with no cases\n"); 


ie (findlabel(lab + 1)->ref) 
definelab(lab + 1); 

因为 选择 代码 可 能 会 引用 -default 标 号 ， 所 以 即使 default 标号 未 被 引用 ， 也 会 被 定义 。 

直到 所 有 的 case 分 支 语 句 都 被 检查 完 ， 才 能 生成 选择 代码 。 对 语句 进行 编译 将 在 代码 表 中 
添加 入 口 ， 而 选择 代码 的 入 口 应 该 出 现在 表达 式 的 入 口 之 后 、 语 句 的 入 口 之 前 。 如 果 插 入 了 分 支 
语句 ， 那 么 选择 代码 就 可 以 出 现在 语句 的 后 面 ， 这 样 选择 代码 仍 可 以 在 语句 之 前 执行 。 对 于 这 个 
问题 ， 有 一 种 更 简单 的 可 以 生成 更 好 的 代码 的 解决 方法 : 重新 安排 代码 表 。 

图 10-2 最 上 面 的 图 给 出 了 出 口 标号 定义 之 后 的 代码 表 。 其 中 ， 实 心 圆 表示 的 是 表达 式 的 人 
口 ， 空 心 圆 表示 Switch 占 位 符 ， 空 心 方块 表示 语句 的 入 口 ， 包 括 对 case 标号 和 default 标号 的 定 
义 以 及 由 break 语句 生成 的 跳 转 指 令 。head 指向 占 位 符 ，codelist 指向 最 后 一 条 语句 的 人 口 。 
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生成 选择 代码 的 第 一 步 就 是 构建 实心 圆 作 为 代码 表 的 结尾 : 


(generate the selection code 184)= 184 180 
tail = codelist; 
codelist = head->prev; 
codelist->next = head->prev = NULL; 


图 10-2 的 第 二 幅 图 给 出 了 这 些 语句 的 结果 。head 和 tail 分 别 指向 占 位 符 和 语句 的 人 口 ， 
codelist 指向 表达 式 的 人 口 。 生 成 选择 代码 时 ， 它 的 入 口 就 被 添加 到 适当 的 地 方 : 
(generate the selection code 184)+= 184 184 180 
if (sw.ncases > 0) 
swgen(&sw) ; 
branch(lab); 
图 10-2 的 第 三 幅 图 给 出 了 添加 选择 代码 入 口 以 后 的 代码 表 ， 其 中 选择 代码 的 入 口 用 三 角形 
表示 。 最 后 一 步 就 是 将 由 head 和 tail 保存 的 整个 列表 添加 到 代码 表 中 ， 并 把 codelist 设置 为 tail: 
(generate the selection code 184)+= 184 180 
head->next->prev = codelist; 


codelist->next = head->next; 
codelist = tail; 


图 10-2 的 最 后 一 幅 图 给 出 了 最 后 的 结果 ， 图 中 忽略 了 占 位 符 。 

当 case 分 支 超 过 3 个 时 ， 最 快 的 选择 代码 就 是 采用 分 支 表 : 表达 式 的 值 用 作 该 表 的 索引 ， 第 
i 个 入 口 保存 了 L, MRi 不 是 一 个 case 标号 ， 则 保存 L。 对 于 这 种 组 织 ， 选 择 操 作 所 消耗 的 时 
间 是 固定 的 。 该 表 所 占 的 内 存 空间 与 u-l+1 成 比例 ， 这 里 1 和 nu 分 别 表示 case 的 最 小 值 和 最 大 
值 。 对 于 n 个 case 值 ， 该 表 的 密度 ( 非 默认 目标 标号 所 占 的 比例 ) 就 等 于 n/(u-1+1)。 如 果 该 密 
度 太 小 ， 这 种 组 织 就 浪费 了 内 存 空 间 。 更 糟糕 的 是 ， 有 一 些 合法 的 switch 语句 采取 这 种 方法 并 不 
实际 : 


switch Ci) { 

case INT_MIN: ...; break; 
case INT_MAX: ...; break; 
} 


另 一 种 极端 方法 ,线性 查找 (顺序 进行 n 次 比较 ) 更 紧凑 但 更 慢 。 这 种 方法 对 于 任意 case 标号 集 
合 都 只 需要 O(n) 的 空间 ， 但 是 选择 所 消耗 的 时 间 为 O(n)。 利 用 二 分 查找 可 将 时 间 复 杂 性 降低 到 
O(log n), 但 增加 了 O(log n) 的 空间 。 
lee 编译 器 结合 了 分 支 表 和 二 分 查找 两 种 技术 : 它 生成 了 一 个 密集 分 支 表 的 三 分 查找 代码 。 
如 果 有 m 个 表 ， 选 择 的 时 间 复 杂 度 为 O(log m) 而 空间 复杂 度 与 ntlog m 成 正比 。 通 过 这 种 方法 
生成 选择 代码 包含 3 步 : 先 将 值 -标号 对 分 配 到 密集 分 支 表 中 ， 然 后 将 这 些 表 转换 为 与 二 分 查找 
对 应 的 树 ， 最 后 遍历 树 生成 代码 。 
下 面 的 例子 可 以 帮助 我 们 理解 这 3 步 的 代码 。 假 定 case 的 值 如 下 : 
iv 58 1 2 3 4 5 6 7 Saad 
vii 21 22. 28) 27 28 c2oe800375. 38 39 
v Æ values 数组 。 线 上 面 的 数字 就 是 v 的 索引 号 。 对 于 子 集 vijl BE dij) 就 等 于 数组 的 元 素 
个 数 除 以 这 些 值 的 范围 : 
d(i,j) = G -i+ D/L -vi + 
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例如 : 

d(0,9) = (9-0+1)/(39-21+1) = 10/19 = 0.53 
d(0,5) = (5-0+1)/(29-21+1) = 6/9 = 0.67 
d(6,9) = (9-6+1)/(39-36+1) = 4/4 = 10 


density 的 值 就 是 分 支 表 中 最 小 的 密度 值 : 


(stmt.c data)+= 168 
float density = 0.5; 
默认 的 密度 值 等 于 0.5， 因 为 dd0，9)>0.5， 使 得 上 面 的 例子 存放 在 一 个 表格 中 。lcc 编译 器 的 -dx 
选项 可 以 将 density 的 值 改 为 x。 如 果 density 等 于 0.66， 那 么 该 例子 就 生成 两 个 表格 (v[0..5] 和 
Vv[6..9])， 而 如 果 density 等 于 0:75 就 生成 3 个 表格 (v[0:.2]、v[3..5] 和 v[6..9])。 如 果 density 等 于 
1.0, BARSA n 个 表格 ， 每 个 表格 只 有 一 个 元 素 ， 这 些 表格 与 一 个 二 分 查找 相对 应 。 

一 个 简单 的 贪 禁 算法 可 以 实现 这 种 划分 ， 如果 当前 表格 为 v[i.j， 且 d(i, j+) > density， 就 将 
表格 扩展 为 v[i..j+1]。 表 格 被 扩展 后 ， 如 果 该 表格 与 其 前 驱 表 格 合 并 后 的 密度 值 大 于 density, Jil 
将 它们 合并 。swgen 函数 是 这 样 实现 以 上 两 步 的 ， 将 单元 素 v[j+l] 当 作 表 格 vfj+1.j+1] 来 处 理 ， 
如 果 有 可 能 ， 就 将 它 与 其 前 驱 合 并 。 在 下 面 的 代码 中 ，buckets[k] 就 是 第 k 个 表 的 第 一 个 值 在 v 
中 的 索引 ， 也 就 是 说 ， 表 kk 是 v[buckets[k]..buckets[k+1]-1), XF n^ case fH, MAA nH 
格 ， 所 以 buckets 数组 有 ntl 个 元 素 。 


(stmt.c macros) += 180 
#define den(i,j) ((j-buckets[i]+1.0)/(v[j]-v{buckets[i]]+1)) 


(stmt.c functions) += 182 186 
static void swgen(swp) Swtch swp; { 
int *buckets, k, n, *v = Swp->values; 


buckets = newarray(swp->ncases + 1, 
sizeof *buckets, FUNC); 
for (n = k = 0; k < swp->ncases; k++, n++) { 
buckets[n] = k; 
while (n > 0 && den(n-1, k) >= density) 
th 


buckets[n] = swp->ncases; 
swcode(swp, buckets, 0, n - 1); 
} 


“4 swgen 函数 调用 swcode 函数 时 ， 有 n 个 表格 ， 而 buckets[0..n-1] 保存 了 每 个 表格 的 第 一 个 值 在 
v 中 的 索引 ， 且 buckets[n] 等 于 n， 也 就 是 假定 的 第 ntl 个 表格 的 索引 。 

下 面 将 说 明 当 density 等 于 0.66 时 swgen 函数 如 何 划 分 上 面 的 例子 。for 循环 第 一 次 循环 结 
RHF: i 

vii] 21 22 23 27 28 29 36 37 38 39 
表 中 第 一 个 元 素 左边 的 竖 线 表示 buckets 的 值 。k 对 应 的 值 用 下 划 线 标 出 。 所 以 ， 第 一 次 循环 结 
束 时 , k 等 于 0 并且 它 对 应 的 值 为 21， 唯 一 的 表格 就 是 v[0..0]。 接 下 来 的 两 次 循环 将 buckets[1] 
分 别 设置 为 1 和 2， 将 单个 元 素 的 表格 v[1..1] 和 v[2..2] 与 它们 的 前 驱 v[0..0] 和 v[0..1] 合并 。 第 
三 次 循环 结束 时 的 状态 如 下 : 


186 #1OF 


wi}. 21 “220023 27.28) 29 36 37) 38 39 


只 有 表格 v[0..2]。 第 四 次 循环 不 能 将 包含 27 的 v[3..3] 与 v[0..2] 合并 ， 因 为 密度 d(0,3)=4/7=0.57 
太 小 了 ， 所 以 状态 变 为 : 
vfi] [21 22 23 B7 28 29 36 37 38 39 


接 下 来 ，v[4..4] (28) 可 以 与 v[3..3] 合并 ， 但 是 v[3..4] 不 能 与 v[0..3] AIF, FW d(0..4)=5/8= 
0.63。 

检查 29 的 循环 是 最 有 趣 的 。 在 while 循环 之 前 ，n 等 于 2 且 状 态 为 : 

viil) |21 22 23 |27 28 29 36 37 38 39 


while 循环 将 v[3..4] 与 v[5..5] 合并 ,并 将 n 减 至 1 ; 因为 d(0,5)=6/9=0.67， 可 以 将 v[0..2] 与 刚刚 
形成 的 v[3..5] AIF, 并 将 n WME O while 循环 后 的 状态 为 : 
vii) Pi 22 23 27 28 29 36 37 38 39 


该 过 程 结 束 时 分 为 两 个 表 ; 在 调用 swcode 函数 之 前 的 状态 如 下 (最 右边 的 竖 线 表示 buckets[n] 
的 值 ): 
人 DG 9 
“vii] [21 22 23 27 28 29 Bé6 37 38 39] 
n 等 于 2， 而 buckets 中 保存 索引 0、6 和 10. 
最 后 两 步 就 是 将 上 面 buckets 描述 的 表 转 换 为 树 ， 然 后 对 树 进行 转换 ， 为 每 个 表 生 成 选择 代 
码 。swcode 函数 使 用 分 治 算法 同时 处 理 这 两 步 。swgen 函数 调用 swcode 函数 ， 提 供 switch 句柄 、 
buckcis、buckets 的 下 界 和 上 界 以 及 表格 的 数目 作为 参数 。buckets 在 其 最 后 一 个 元 素 后 面 还 有 一 
个 标记 ， 从 而 简化 了 对 最 后 一 个 表格 中 最 后 一 个 case 值 的 访问 。 
swcode 函数 对 b[lb..ub] 给 定 的 ub-lb+1 个 表格 生成 代码 。 它 选择 中 间 的 表格 作为 查找 树 的 根 
节点 ， 为 其 生成 代码 ， 并 递归 地 调用 自身 为 根 节点 两 边 的 表格 生成 代码 。 
(stmt.c functions) += 185 188 
static void swcode(swp, b, 1b, ub) 
Swtch swp; int b[}; int 1b, ub; { 


int hilab, lolab, 1, u, k = (lb + ub)/2; 
int *v = swp->values; 


(swcode 186) 


当 只 有 一 个 表格 时 ， 如 果 switch 表达 式 的 值 不 在 表格 覆盖 范围 之 内 ， 控 制 将 会 转 到 default 标号 。 
需要 对 表格 进行 二 分 查找 时 ， 如 果 switch 表达 式 在 当前 表格 范围 之 外 ， 控 制 流 将 转 到 相应 的 子 
表 中 。 
(swcode 186 ) 三 187 186 
if (k > lb & k < ub) f 
lolab = genlabel(1); 
hilab = genlabel(1); 
} else if (k > 1b) { 


语 2 187 


lolab = genlabel(1); 
hilab = swp->deflab->u.1. label; 
} else if (k < ub) { 
lolab = swp->deflab->u.1}. label; 
hilab = genlabel(1); 
} else 
lolab = hilab = swp->deflab->u.1. label; 


如 果 switch 表达 式 小 于 根 的 最 小 值 或 者 大 于 根 的 最 大 值 ， 则 lolab 和 hilab 指明 控制 应 当 转 到 的 地 
方 。 如 果 搜 索 树 既 有 左 子 表 又 有 右 子 表 ， 那 么 lolab 和 hilab 就 标识 它们 的 代码 序列 。 当 没有 右 子 
表 时 ，default 标号 就 用 作 hilab, 没有 左 子 表 时 它 就 用 作 lolab。 如 果 根 节点 是 唯一 的 表格 ， 那么 
default 标号 既 可 以 用 作 hilab 也 可 以 用 作 lolab。 
最 后 ， 生 成 根 节点 表格 的 代码 : 
(swcode 186 ) 十 三 186 187 186 
1 = b[k]; 
u = b[k+1] - 1; 
if (u - 1 +1 <= 3) 
(generate a linear search) 


else { 
(generate an indirect jump and a branch table 187) 


swcode 函数 会 被 递归 调用 ， 生 成 左 、 右 子 表 的 代码 。 


(swcode 186 )+= 187 186 
if (k > 1b) { 
definelab(lolab); 


swcode(swp, b, 1b, k - 1); 


} 

if (k < ub) { ` 
definelab(hi lab); 
swcode(swp, b, k + 1, ub); 


每 个 分 支 表 处 理 两 个 条 件 比 较 和 一 个 间接 跳 转 指令 一 一 至 少 处 理 3 条 指令 。 对 于 大 多 数目 标 
机 器 ， 如 果 表 格 中 的 值 超过 3 个 ， 那 么 使 用 分 支 表 就 很 适合 。 否 则 简短 的 线性 查找 会 更 好 ， 参 见 
练习 10.8。 

通过 分 支 表 为 间接 跳 转 指令 生成 的 代码 具有 如 下 形式 : 


if tl < v[1] goto lolab 
if tl > v[u] goto hilab 
goto *table[tl1-v[1]] 


这 里 v[l].v[u].lolab 和 hilab 都 会 被 swcode PRATER AMEEN. Make ANAS ET AB, 
间接 跳 转 指令 的 跳 转 目标 对 应 的 树 与 数组 索引 的 树 相 同 : 


(generate an indirect jump and a branch table 187)= 188 187 
Symbol table = genident(STATIC, 
array(voidptype, u - 1 + 1, 0), LABELS); 
(*IR->defsymbol) (table); 
cmp(LT, swp->sym, v[1], lolab); 
cmp(GT, swp->sym, v[u], hilab); 





188 


walk(treeCJUMP, voidtype, 
rvalue((*optree['+']) (ADD, pointer(Cidtree(table)), 
(*optree['-']) (SUB, 
cast(idtree(swp->sym), inttype), 
consttree(v(1], inttype)))), NULL), 0, 0); 


emp 函数 是 为 比较 表达 式 : 


if pen goto L 


# 10 


构建 分 析 树 ， 并 将 它 转换 为 dago p 是 一 个 标识 符 ，@ 表示 一 个 关系 运算 符 ,n 是 一 个 整数 


常量 : 
(stmt.c functions) += (86 1 
static void cmp(op, p, n, lab) int op, n, lab; Symbol p; { 
listnodes(eqtree(op, 
cast(idtree(p), inttype), 
consttree(n, inttype)), 
lab, 0); 
} 


emp 函数 还 可 用 来 生成 一 个 线性 查找 ， 参 见 练习 10.8. 


分 支 表 是 这 样 生成 的 ， 定 义 静 态 变 量 table， 为 表格 中 的 每 个 标号 调用 接口 函数 defaddress。 
但 是 只 有 发 送 生成 代码 时 ， 才 会 执行 该 过 程 ， 所 以 相关 的 数据 存储 在 代码 表 的 Switch 入 口中 : 


(Switch 188)= 168 
struct { 
Symbol sym; 
Symbol table; 
Symbol deflab; 
int size; 
int *values; 
Symbol *labels; 


} swtch; 
(generate an indirect jump and a branch table 187) += 187 187 
code(Switch) ; 


codelist->u.swtch.table = table; 
codelist->u.swtch.sym = swp->sym; 
codelist->u.swtch.deflab = swp->deflab; 
codelist->u.swtch.size = u - 1 +1; 
codelist->u.swtch.values = &v[1]; 
codelist->u.swtch. labels = &swp->labels[1]; 
if (v[u] - v[1] + 1 >= 10000) 

warning("switch generates a huge table\n"); 


该 表 通 过 emitcode 函数 产生 。 


10.8 return 语句 


void 函数 的 return 语句 中 没有 表达 式 ， 其 他 函数 的 return 语句 都 带 有 表达 式 。 如 果 在 不 该 返 
回 表达 式 时 返回 了 表达 式 ， 就 会 报错 ; 应 该 返回 表达 式 而 漏 掉 了 表达 式 ， 则 仅 给 出 警告 信息 : 


we 4] 189 


(return statement 189)= 
{ 


Type rty = freturn(cfunc->type); 
t = gettok(); 
definept (NULL) ; 
TELE Ie, Sy") 
if (rty = voidtype) { 
error("extraneous return value\n"); 
expr (0); 
retcode(NULL) ; 
} else 
retcode(expr(0)); 
else { 
if (rty [= voidtype 
&& (rty != inttype || Aflag >= 1)) 
warning("missing return value\n"); 
retcode (NULL) ; 


Ue ade r a be 
} 

retcode 函数 对 其 参数 分 析 树 进行 类 型 检查 ， 调 用 walk 函数 来 构造 相应 的 RET dag， 这 些 将 在 下 
面 详细 介绍 。 紧 接 该 dag 的 是 一 个 跳 转 到 cfunc->u.flabel 的 跳 转 指令 ， 而 cfunc->u.f.label 标识 了 
当前 函数 的 结束 点 ; cfunec 指向 当前 函数 在 符号 表 中 的 入 口 (可 以 通过 调用 branch 函数 去 掉 该 跳 
转 指 令 )。 最 后 编译 后 端 加 入 函数 尾 代码 以 结束 函数 的 处 理 一 一 如 果 有 必要 ， 函 数 尾 代码 应 恢复 
已 保存 的 值 ， 并 将 函数 返回 到 调用 它 的 程序 。 

除非 lce 编译 器 指定 了 -A 选项 ， 和 否则 上 面 的 代码 对 于 漏 掉 返回 值 的 函数 不 会 给 出 警告 信息 。 
因为 程序 员 经 常 将 返回 整数 的 函数 当 作 void 函数 来 使 用 ， 也 就 是 使 用 


f(double x) { ... return; } 
来 取代 更 准确 的 
void f(double x) { ... return; } 


所 以 ， 对 于 许多 程序 来 说 ， 漏 掉 返 回 值 的 警告 信息 太 多 ， 以 至 于 会 淹没 其 他 更 重要 的 警告 信息 。 
对 于 void PAX, retcode 函数 除了 可 能 产生 一 个 事件 钩子 外 ， 不 会 进行 其 他 操作 : 


(stmt.c functions) += 188 191 
void retcode(p) Tree p; { 
Type ty; 


if (p == NULL) { 
if C(events.returns) 
(plant event hook for return) 
return; 
} 
{retcode 190) 


如 果 返 回 类 型 不 是 void，retcode 函数 构造 并 转换 RET 树 。 该 RET 操作 符 仅 标识 了 返回 值 ， 所 以 
编译 后 端 可 以 根据 目标 机 器 的 调用 约定 将 它 放 在 适当 的 地 方 ， 比 如 规定 的 寄存 器 。 


190 # 10% 


如 果 有 返回 表达 式 ，retcode 函数 就 对 它 进行 类 型 检查 ， 并 把 它 转 换 为 返回 类 型 ， 就 像 把 该 什 
赋 给 具有 函数 返回 类 型 的 变量 一 样 ， 将 它 包装 在 相应 的 RET 树 中 : 


(retcode 190) 三 190 
p = pointer(p); 
ty = assign(freturn(cfunc->type), p); 
if (ty == NULL) { 
error(“illegal. return type; found '%t expected '%t'\n", 
p->type, freturn(cfunc->type)); 
return; 
} 
p = cast(p, ty); 


整数 、 无 符号 数 、 浮 点 数 以 及 双 精 度数 作为 返回 值 时 ， 将 返回 自身 。 字 符 和 短 整 型 如 同 它们 
出 现在 参数 列表 中 一 样 ， 将 转换 为 返回 类 型 的 提升 类 型 。 由 于 没有 RET+P 指令 ， 所 以 指针 类 型 
转换 成 无 符号 数 ， 并 通过 RET+I 返回 。 调 用 这 类 函数 使 用 的 是 CALL+I 指令 ， 它 们 的 值 再 通过 
CVU+P 转换 回 指 针 。 


(retcode190 )+= iSo 189 
if (retv) 
(return a structure 190) 
if Cevents.returns) 
(plant an event hook for return p) 
p = cast(p, promote(p->type)); 
if Cisptr(p->type)) { 
(warn if p denotes the address of a local) 
p = cast(p, unsignedtype); 


189 


} 
walk(tree(RET + widen(p->type), p->type, p, NULL), 0, 0); 


返回 局 部 变量 的 地 址 是 一 种 常见 的 程序 错误 ，lec 编译 器 会 对 这 种 简单 情况 进行 检查 并 给 出 警告 
信息 ; 参见 练习 10.9。 

因为 没有 RET+B 指令 ， 返 回 结构 是 通过 将 结构 赋值 给 变量 来 实现 的 。 如 9.3 节 所 示 ， 如 果 
wants_callb 等 于 1， 该 变量 就 是 调用 程序 的 CALL+B 的 第 二 操作 数 ， 也 是 被 调用 程序 的 第 一 个 局 
部 变量 ,编译 后 端 必须 按照 具体 目标 机 器 的 约定 传递 其 地 址 。 如 果 wants_callb 等 于 0， 编译 前 端 
就 将 该 变量 作为 隐 仿 的 第 一 参数 来 传递 ， 而 不 会 将 CALL+B 传递 给 编译 后 端 。 对 于 这 两 种 情况 ， 
实现 复合 语句 的 compound 函数 就 将 retv 指向 该 变量 的 符号 表 入 口 ， 成 为 指向 该 变量 的 指针 。 返 
回 结构 就 是 对 *retv 进行 赋值 : 


(return a structure 190)= 190 


if Ciscallb(p)) 
p = tree(RIGHT, p->type, 
tree(CALL+B, p->type, 
p->kids[0]->kids[0], idtree(retv)), 
rvalueC(idtree(retv))); 
else 
p = asgntree(ASGN, rvalue(idtree(retv)), p); 
walk(p, 0, 0); 
if (events.returns) 
(plant an event hook for a struct return) 
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return; 


} 
对 于 ASGN+B (参见 9.5 47) Al ARG +B (参见 9.3 节 )， 有 一 种 可 以 减少 对 
return f(); 


进行 复制 的 方法 ， 其 中 函数 f 与 当前 函数 返回 的 结构 相同 ， 所 以 当前 函数 的 retv 可 以 用 作 调 用 函 
数 f 的 临时 变量 。 如 果 上 面 的 代码 经 过 iscallb 函数 调用 发 现 满 足 这 种 条 件 ， 就 用 retv 取代 临时 变 
量 对 CALL+B 树 进 行 重新 构建 。 


10.9 ”管理 标号 和 跳 转 指令 


标号 是 通过 definelab 函数 定义 的 ， 而 跳 转 到 标号 的 跳 转 指令 则 由 branch 函数 生成 。 这 些 函 
数 还 要 合作 以 删除 死 的 跳 转 指令 ， 即 接 在 无 条 件 跳 转 指令 或 switch 语句 后 的 跳 转 指令 ， 避 免 跳 转 
到 跳 转 指令 的 跳 转 指令 ， 并 且 避 免 跳 转 到 紧 接着 的 标号 的 跳 转 指令 。 采 用 的 方法 与 code 函数 中 
检查 不 可 达 代 码 的 方法 类 似 。 

definelab 函数 将 标号 定义 添加 到 代码 表 中 ,然后 检查 前 一 个 可 执行 人 口 是 否 是 一 个 跳 转 到 该 
新 标号 的 跳 转 指令 : 


(stmt.c functions) += 189 192 
void definelab(lab) int lab; { 
Code cp; 
Symbol p = findlabel(lab); 


walk(NULL, 0, 0); 
code(Label)->u. forest = newnode(LABELV, NULL, NULL, p); 
for (cp = codelist->prev; cp->kind <= Label; ) 
cp = cp->prev; 
while ((cp points to a Jump to 1ab191)) { 
p->ref--; 
(remove the entry at cp 192 ) 
while (cp->kind <= Label) 
cp = cp->prev; . 
} 
} 


这 里 ，newnode 函数 为 LABELYV 构建 一 个 dag， 且 sym[0] 等 于 p。for 循环 用 来 向 后 遍历 代码 表 ， 
直到 遇 到 第 一 个 表示 可 执行 代码 的 入 口 ， 而 while 循环 是 用 来 去 掉 一 个 或 多 个 跳 转 到 lab 的 跳 转 
指令 。 如 果 *cp 是 一 个 Jump AO, IBA cp 就 是 一 个 跳 转 到 lab 的 跳 转 指令 ， 它 的 节点 计算 lab 
的 地 址 : 
(cp points to a Jump to Jab 191)= - 19) 
cp->kind == Jump 
&& cp->u.forest->kids [0] 


&& cp->u.forest->kids[0]->op == ADDRGP 
&& cp->u.forest->kids[0]->syms[0] == p 


把 这 种 Jump 入 口 从 代码 表 中 去 掉 ， 就 实现 了 对 无 用 跳 转 指令 的 删除 : 
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(remove the entry at cp 192 )= 191 192 
cp->prev->next = cp->next; 
cp->next->prev = cp->prev; 
cp = cp->prev; 


“4 definelab 函数 删除 一 条 跳 转 指令 时 ， 还 要 将 其 目标 标号 的 ref 域 减 1。 这 样 做 是 因为 在 构 
建 跳 转 指令 的 dag 时 对 目标 标号 的 ref 域 进行 了 加 1 操作 : 
(stmt.c functions) += 191 192 


Node jump(lab) int lab; { 
Symbol p = findlabel (lab); 


p->ref++; 
return newnode(JUMPV, newnode(ADDRGP, NULL, NULL, p), 
NULL, NULL); 
} 


jump 函数 由 branch 函数 调用 ， 在 Jump 人 和 人口 保存 了 JUMPV dag 并 将 它 添加 到 代码 表 中 。 
branch 函数 还 要 删除 跳 转 到 跳 转 指令 的 跳 转 指令 以 及 死 的 跳 转 指令 。 首 先 ， 它 使 用 一 个 
Label 占 位 符 将 跳 转 指令 添加 到 代码 表 中 。 跳 转 指 令 不 是 标号 ， 但 使 用 Label 占 位 符 ， 使 代码 段 


<check for unreachable code> 不 会 报警 ， 如 果 代 码 表 中 最 后 一 个 可 执行 人 口 是 一 个 无 条 件 跳 转 指 
令 ， 该 程序 就 会 报告 它 。 


(stmt.c functions) += 192 193 
static void branch(Jab) int lab; { 
Code cp; 


Symbol p = findlabel (lab); 


walk(NULL, 0, 0); 

code(Label)->u. forest = jump(lab); 

for (cp = codelist->prev; cp->kind < Label; ) 
cp = cCp->prev; 

while ((cp points to a Label + 1ab192)) { 
equatelab(cp->u.forest->syms[0], p); 
(remove the entry at cp 192 ) 
while (cp->kind < Label) 

cp = cp->prev; 
} 
(eliminate or plant the jump 193 ) 
} 


branch 函数 的 for 循环 退回 到 占 位 符 之 前 的 第 一 个 可 执行 人 口 或 Label AH, while 循环 则 寻找 具 
有 如 下 模式 的 标号 L' 的 定义 : 


L's 
goto L 


这 里 goto L 就 是 占 位 符 处 的 跳 转 指令 。 


(cp points to a Label + lab 192)= 
cp->kind == Label 
&& cp->u.forest->op == LABELV 
&& !equal(cp->u.forest->syms[0], p) 


Ww aj 193 


WEL L, L' 就 等 价 于 L ; WS L 的 指令 可 以 直接 跳 转 到 LL， 这 样 L' 的 Label 入 口 就 
可 以 删除 。 
(stmt.c functions) += 192 193 
void equatelab(old, new) Symbol old, new; { 


old->u.1].equatedto = new; 
new->ref++; 


这 段 程序 为 old 构建 一 个 同 义 符 号 new。 在 代码 生成 过 程 中 ， 对 old 的 引用 可 以 替换 成 由 
equatedto 域 形 成 的 列表 未 尾 的 标号 。 因 为 old 等 价 于 new 后 ，new 可 能 等 价 于 其 他 符号 ， 所 以 将 
这 些 域 构成 一 个 列表 。zref 域 负责 计算 跳 转 指令 或 其 他 标号 的 ulLequated 域 对 该 标号 的 引用 次 数 ， 
所 以 equatelab 函数 要 对 new->ref Hill 1。 
当 两 个 标号 相等 时 ， 这 些 同 义 符号 使 得 条 件 测试 很 复杂 。 当 LL' 等 于 跳 转 的 目标 时 ， 代 码 段 
<cp points to a Label ¥ lab> 一 定 会 失败 ， 而 删除 如 下 代码 就 不 会 出 错 ， 而 不 管 它 是 多 么 无 意义 : 
top: 
goto top; 
仅仅 测试 L' 是否 等 于 目标 p 还 不 够 ， 如 果 民 等 于 p 或 者 等 于 任何 一 个 与 p 同 义 的 符号 ， 那 么 这 
两 个 标号 就 是 等 价 的 。equal 函数 实现 了 这 种 更 复杂 的 条 件 测试 : 
(stmt.c functions) += (93 
static int equal(Iprime, dst) Symbol Iprime, dst; { 
for ( ; dst; dst = dst->u.1.equatedto) 
if (lprime == dst) 
return 1; 
return 0; 


} 
如 果 cp 以 Jump 或 Switch 结束 ， 那 么 该 分 支 就 是 不 可 达 的 ， 所 以 占 位 符 就 可 以 删除 。 和 否则 ， 
古 位 符 就 变 成 一 个 Jump: 


(eliminate or plant the jump 193)= 192 
if (cp->kind == Jump || cp->kind == Switch) { 
p->ref--; . 


codelist->prev->next = NULL; 

codelist = codelist->prev; 
} else { 

codelist->kind = Jump; 

if (cp->kind == Label 

&& cp->u.forest->op == LABELV 

&& equal(cp->u.forest->syms[0], p)) 

warning(“source code specifies an infinite loop"); 

} 


将 对 像 上 面 所 示 的 无 限 循环 发 出 警告 信息 。 
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深入 阅读 


Baskett (1978 ) 描述 了 为 什么 要 进行 循环 的 生成 代码 的 布局 。 
lcc 编译 器 的 执行 点 可 以 用 来 生成 调试 器 的 符号 表 以 及 用 于 性 能 执行 剖面 的 生成 。Ramsey 和 


Hanson ( 1992 ) 介绍 了 可 重 定 目标 的 调试 器 ldb 如 何 使 用 执行 点 来 定位 断 点 以 及 如 何 为 搜索 调试 
器 符号 表 提 供 开 始点 。Ramsey (1993) 还 详细 介绍 了 如 何 使 用 关键 接口 函数 来 生成 符号 表 数 据 ， 
描述 了 如 何 使 用 Ice 来 计算 调试 时 输入 的 C 语言 表达 式 。Fraser and Hanson ( 1991b) 介绍 了 lce 
的 与 目标 机 器 无 关 的 性 能 执行 剖面 的 实现 方法 ， 该 功能 通过 -b 选项 来 实现 。 


许多 论文 和 编译 带 方 面 的 教材 都 介绍 了 如 何 生 成 switch 语句 的 选择 代码 。Hennessy， 


Mendelsohn ( 1982 ) 和 Bernstein (1985) 介绍 了 与 lcc 编译 器 类 似 的 技术 。 贪 禁 算 法 可 以 按 线 
性 时 间 复 杂 度 将 case 值 分 组 到 密集 表格 中 ， 但 并 不 保证 这 种 分 组 的 表格 数 最 少 。Kannan and 
Proebsting ( 1994 ) 用 一 页 论文 给 出 了 一 种 实现 这 种 功能 的 简单 二 次 项 算法 。 


10.4 
10.5 
10.6 


10.7 


10.8 


实现 do 语句 。 
实现 while 语句 。 
实现 下 面 的 函数 : 
(stmt.c prototypes) = 

static int foldcond ARGS((Tree el, Tree e2)); 
它 会 被 forstmt 函数 调用 。 提 示 : 构建 一 棵 分 析 树 ， 在 适当 的 时 候 ， 用 el 替换 测试 表达 式 e2 的 左 操作 
数 。 如 果 该 分 析 树 的 操作 数 都 是 常量 ，simplify 函数 就 会 返回 一 棵 CNST 树 ，CNST 树 决定 循环 体 是 
否 至 少 执行 一 次 。 
在 <case label> 代码 段 中 有 一 个 while 循环 ， 但 在 case 标号 的 文法 中 并 没有 重复 构件 。 请 解释 原因 。 
证 明 swgen 函数 中 分 组 算法 运行 的 时 间 复 杂 度 关于 n 是 线性 的 ，n 为 case 值 的 数目 。 
下 面 是 swgen 函数 分 组 算法 的 男 一 种 实现 方法 (由 Arthur Watson 提出 )。 
while (n > 0) { 

float d = den(n-1, k); 

if (d < density 

|| k < swp->ncases - 1 && d < den(n, k+1)) 
break; 

n==; 
} 
5 10.7 节 swgen 使 用 的 贪 禁 算 法 的 区 别 在 于 ， 如 果 一 个 表格 可 以 和 v[k+1] 构成 一 个 更 密集 的 表格 ， 
则 该 表格 和 它 的 前 驱 不 进行 合并 。 例 如 ， 当 density 等 于 0.5 时 ， 贪 禁 算 法 就 将 值 1、6、7、8、11 和 
15 分 为 3 个 表格 : (1，6~8)、(11) 和 (15); 而 这 种 向 前 看 的 方法 给 出 了 两 个 表格 : (1)、(6 ~ 8, 
11，15 )。 分 析 并 解释 这 种 方法 。 你 能 证 明 在 什么 条 件 下 它 可 以 得 到 比 贪 焚 算 法 更 少 的 表格 ? 
用 Kannan and Proebsting ( 1994 ) 介绍 的 最 优 分 组 算法 来 改写 swgen 函数 。 当 density 等 于 0.5 时 ， 该 
最 优 算法 将 值 1、6、7、8、9、10、15 和 19 分 为 两 个 表格 : (1)、(6 ~ 10，15，19 ); 而 贪 禁 算法 及 
前 面 练习 中 所 提 到 的 向 前 看 的 方法 生成 3 个 表格 :(1,6 ~ 10)、(15 ) 和 (19 )。 请 找 一 个 真实 的 程序 ， 
针对 该 程序 的 最 优 分 组 算法 得 到 的 表格 比 贪 禁 算法 更 少 。 能 找到 它们 在 执行 时 间 上 的 差别 吗 ? 
实现 swcode 函数 的 <generate a linear search> 代码 段 ， 使 得 生成 的 代码 具有 如 下 形式 : 
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if tl = v{l] goto Li 


if tl = v[u] goto Ly 
if tl < v{[l) goto lolab 
if tl > v[u] goto hilab 


使 用 cmp 函数 来 实现 条 件 比较 ， 避 免 生成 不 必要 的 跳 转 到 lolab 和 hilab 的 跳 转 指令 。 

实现 <warn if p denotes the address of a local> 代码 ， 该 代码 是 对 p 进行 检查 ， 若 p 是 局 部 变量 或 参数 

的 地 址 ， 则 给 出 警告 信息 ， 这 个 测试 可 以 捕获 这 类 程序 错误 中 的 一 部 分 ， 但 不 是 全 部 。 试 给 出 一 个 这 

种 方法 不 能 检查 出 来 的 错误 例子 。 是 否 有 一 种 方法 能 够 在 编译 时 捕获 所 有 的 错误 ? 在 执行 时 可 以 吗 ? 
sweode 函数 要 接受 b[lb..ub] 中 的 ub-lb+l 个 表格 作为 参数 ， 并 选择 b[(b+ub)/2] 处 的 表格 作为 生成 二 
分 查找 树 的 根 节 点 。 其 他 选择 也 可 以 ， 比 如 可 以 选择 最 长 的 表格 ， 或 者 执行 前 面 (profiling) 数据 能 
够 提供 每 一 个 case 值 出 现 的 频率 ， 这 些 数据 可 以 查 明 最 可 能 覆盖 switch 值 的 表格 。 此 外 ， 我 们 还 可 
以 假定 case 值 具有 特定 的 概率 分 布 。 假 设 在 v[b[lb]..b[ub+1]-1] 范围 中 的 所 有 (甚至 那些 没有 case 
标号 的 ) 值 都 以 相同 的 概率 出 现 。 对 于 这 种 分 布 ， 作 为 根 节 点 的 表格 就 应 当 是 该 范围 中 最 接近 平均 
值 的 那个 case 值 对 应 的 表格 。 请 通过 正确 计算 swcode 函数 的 k 值 来 实现 这 种 方法 。 注 意 : 可 能 没有 
表格 覆盖 平均 值 ， 所 以 要 选择 最 接近 的 一 个 。 
某 些 系 统 支 持 动态 链接 和 加 载 。 当 加 载 新 的 代码 时 ， 动 态 链接 器 必须 识别 和 更 新 其 中 所 有 的 可 重 定 
位 地 址 。 这 个 过 程 要 花费 一 些 时 间 ， 所 以 位 置 无 关 的 ( position-independent) 地 址 可 以 为 动态 链接 带 
来 好 处 ， 这 种 地 址 与 使 用 它 的 指令 在 执行 过 程 中 程序 计数 器 的 值 有 关系 。 例 如 ， 如 果 在 地 址 200 的 
指令 跳 转 到 地 址 300 处 ， 传 统 的 可 重 定位 代码 将 地 址 300 存储 在 指令 中 ， 而 与 位 置 无 关 的 代码 存储 
的 是 300-200， 即 100。 扩 展 lec 编译 器 的 接口 ， 使 它 可 以 为 switch 语句 产生 位 置 无 关 的 代码 。 在 第 
5 章 中 定义 的 接口 不 能 产生 位 置 无 关 的 代码 ， 因 为 它 对 switch 语句 使 用 相同 的 defaddress 函数 来 初始 
化 指针 数据 ， 但 这 肯定 不 是 位 置 无 关 的 。 
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声明 用 于 规定 标识 符 的 类 型 ， 定 义 结构 和 联合 类 型 ， 给 出 函数 的 代码 。 对 声明 的 分 析 可 以 看 
成 是 将 类 型 的 文本 表示 转换 为 第 4 章 介 绍 的 内 部 表示 ， 并 且 生 成 1.3 节 所 描述 的 代码 表 。 

声明 是 C 语言 中 最 难 分 析 的 一 部 分 ， 这 主要 有 两 个 原因 。 第 一 ， 声 明 的 语法 是 为 了 说 明 标识 
符 的 用 法 ， 例 如 ， 声 明 int *x[10] 表示 x 是 一 个 含有 10 个 整 型 指针 的 数组 。 这 里 声明 的 目的 就 是 
说 明 x 的 用 法 ， 比 如 *x[i] 是 整 型 。 遗 憾 的 是 ， 类 型 信息 分 散在 声明 中 使 得 分 析 更 加 复杂 。 

第 二 个 原因 来 自 于 对 全 局 变量 、 局 部 变量 和 参数 声明 的 限制 。 例 如 ， 全 局 和 局 部 变量 可 以 
声明 为 静态 的 ， 而 参数 却 不 可 以 。 同 样 ， 不 管 是 函数 声明 还 是 函数 定义 都 可 以 在 文件 作用 域 中 出 
现 ， 但 是 只 有 函数 声明 可 以 出 现在 局 部 作用 域 中 。 当 然 我 们 可 以 写 一 个 包含 这 些 限 制 的 语法 ， 但 
是 这 会 导致 出 现 一 系列 只 有 细微 差别 的 产生 式 。 本 章 将 介绍 另 一 种 声明 语法 ， 即 只 规定 最 通用 的 
语法 ， 然 后 在 分 析 过 程 中 ， 依 据 上 下 文 利用 语义 检查 来 强制 实现 相应 的 限制 。 由 于 关于 3 种 标识 
符 的 重复 声明 的 规则 各 不 相同 ， 所 以 这 种 语义 检查 在 任何 情况 下 都 是 必要 的 。 

本 章 的 内 容 和 代码 也 体现 了 上 述 困难 : 本 章 是 全 书 最 长 的 一 章 ， 其 中 的 一 些 代码 十 分 复杂 并 
难以 理解 ， 它 必须 处 理 很 多 甚至 很 细微 的 问题 。 而 且 有 一 些 函 数 相互 递归 调用 、 实 现 多 种 功能 ， 
所 以 对 它们 进行 反复 解释 是 不 可 避免 的 。 

本 章 前 5 节 主 要 描述 了 如 何 对 声明 进行 分 析 以 及 将 它 变换 为 上 一 章 介绍 的 前 端 数据 结构 中 的 
内 部 表示 。 后 4 节 介 绍 了 函数 定义 、 复 合 语句 、 结 束 处 理 (finalization) 和 lec 的 主 程序 。 这 几 节 
内 容 对 于 理解 编译 前 端 和 后 端的 交互 很 有 帮助 ， 或 许 是 本 书 最 重要 的 一 部 分 。 例 如 11.6 节 介 绍 前 
端 如 何 调用 后 端的 function 接口 程序 ，11.9 节 显 示 了 针对 特定 目标 机 器 的 接口 记录 是 如 何 与 前 端 
联系 起 来 的 。 


11.1 转换 单元 
C 语言 的 转换 单元 (translation unit) 由 一 个 或 多 个 声明 或 者 函数 定义 组 成 。 


translation-unit: 
external-declaration { external-declaration } 





external-declaration: 
function-definition 
declaration 


program 函数 是 转换 单元 的 分 析 函 数 ， 它 是 decl.c 文件 输出 的 5 个 函数 之 一 ，decl.c 文件 用 于 处 理 
所 有 的 声明 。 在 分 析 转 换 单元 时 人 允许 空 输入 ， 对 于 空 输入 的 情况 ，lcc 只 给 出 警告 信息 。 


(decl.c functions) = 198 
void program() { 
int n; 


level = GLOBAL; 
for (n = 0; t != EOI; n++) 


i 


ie 


if (kind{t] == CHAR || kind[t] == STATIC 

[fits ID [ft << "9" jp t == "(0) { 
decl(dclglobal); 
(deallocate arenas 197) 

} else if (t = ';') { 
warning("empty declaration\n") ; 
t = gettok(); 

} else { 
errorC"unrecognized declaration\n"); 
t = gettok(); 

} 

if (n == 0) 
warning("empty input file\n"); 
} 


197 


函数 定义 看 上 去 就 像 一 个 函数 声明 后 跟 一 个 复合 语句 ， 因 此 decl 函数 既是 函数 定义 又 是 函数 声明 
的 分 析 函 数 。decl 函数 的 参数 可 以 是 dclglobal、dcllocal 或 者 dclparam。decl 及 其 相关 函数 完全 分 
析 完 一 个 标识 符 的 声明 之 后 ， 将 调用 dclX 函数 验证 标识 符 ， 并 把 它 安 装 在 适当 的 符号 表 中 。 这 


些 dclX 函数 将 全 局 变量 、 局 部 变量 和 参数 在 语义 上 相互 区 分 开 。 


上 面 循 环 体 中 的 两 个 else 分 支 处 理 两 种 错误 情况 。C 标准 规定 每 个 声明 至 少 要 声明 一 个 标识 
符 、 一 个 结构 或 枚 举 标 记 ， 或 者 一 个 或 多 个 枚 举 成 员 。 第 一 个 else 警告 出 现 的 空 声明 ， 第 二 个 


else 诊断 有 语法 错误 的 声明 。 


声明 可 以 在 任何 分 配 区 分 配 空间 ， 函 数 定义 在 PERM il FUNC 分 配 区 分 配 空间 ， 变 量 声明 
则 使 用 STMT 分 配 区 的 空间 存放 表示 初始 表达 式 的 树 。 这 样 ,FUNC 和 STMT 分 配 区 的 空间 都 在 


声明 和 定义 结束 后 释放 。 


(deallocate arenas 197 )= 
deallocate(STMT); 
deallocate(FUNC) ; 


11.2 ”声明 
声明 的 语法 如 下 : 


declaration: 
declaration-specifiers init-declarator { , init-declarator } ; 
declaration-specifiers ; 


init-declarator: 
declarator 
declarator = initializer 
initializer: 
assignment-expression 
‘{' initializer { , initializer} [ , } '}' 
declaration-specifiers: 
storage-class-specifier [ declaration-specifiers ] 
type-specifier [ declaration-specifiers ] 
type-qualifier [ declaration-specifiers | 


storage-class-specifier: 


197 


198 


ŽŽ 


typedef | extern | static | auto | register 
type-specifier: 


void 

char | float | short | signed 
int |double | long | unsigned 
struct-or-union-specifier 
enum-specifier 

identifier 


type-qualifier: const | volatile 


声明 规定 了 标识 符 的 类 型 和 其 他 属性 ， 比 如 它 的 存储 类 型 。 定 义 声明 了 一 个 标识 符 并 为 该 标识 符 
预 留 存储 空间 。 带 初始 化 的 声明 就 是 定义 ; 那些 没有 初始 化 的 声明 被 称 为 尝试 性 定义 (tentative 
definition)， 尝 试 性 定义 将 在 11.8 节 中 介绍 。 

声明 包含 一 个 或 多 个 说 明 符 ， 这 些 说 明 符 可 以 按 任意 顺序 排列 ， 例 如 : 


short const x; 
const short x; 
const short int x; 
int const short x; 


上 述 声明 都 说 明 x 是 一 个 不 能 改变 的 短 整 数 。 存 储 类 型 说 明 符 、 类 型 说 明 符 和 类 型 限定 符 可 以 以 
任意 顺序 出 现 ， 但 是 一 种 说 明 符 只 能 出 现 一 次 。 这 种 灵活 性 使 得 声明 说 明 符 的 分 析 函 数 specifier 


十 分 复杂 。 


(decic functions) += 196 200 
Static Type specifier(sclass) int *sclass; { 


} 


int cls, cons, sign, size, type, vol; 
Type ty = NULL; 


cls = vol = cons = sign = size = type = 0; 
if (sclass == NULL) 

cls = AUTO; 
for (33) 4 

int *p, tt = t; 

switch (t) { 

(set p and ty 199) 

default: p = NULL; 


‘i 
if (p == NULL) 
break; 
(check for invalid use of the specifier 199) 
*p = tt; 
} 
if (sclass) 
*sclass = cls; 
(compute ty 200) 
return ty; 


如 果 specifier 函数 的 参数 sclass 非 空 ， 则 它 指 向 一 个 变量 ， 该 变量 的 值 就 是 存储 类 型 的 单词 编码 。 
局 部 变量 cls, vol, cons, sign, size 和 type 分 别 记录 了 相应 说 明 符 的 符号 码 : 


E W 199 


(set p and ty 199 )= 199 198 
case AUTO: 
case REGISTER: if (level <= GLOBAL && cls == 0) 
errorC"invalid use of '%k'\n", t); 


p = &cls; t = gettok(); break; 
case STATIC: case EXTERN: 
case TYPEDEF: p = &cls; t = gettok(); break; 
case CONST: p = &cons; t = gettok(Q); break; 
case VOLATILE: p = &vol; t = gettok(); break; 
case SIGNED: 
case UNSIGNED: p = &sign; t = gettok(); break; 
case LONG: 
case SHORT: p = &size; t = gettokQ); break; 


case VOID: case CHAR: case INT: case FLOAT: 
case DOUBLE: p = &type; ty = tsym->type; 


t = gettok(); break; 
case ENUM: p = &type; ty = enumdcl(Q); break; 
case STRUCT: s 
case UNION: p = &type; ty = structdcl(t); break; 


这 些 变量 都 初始 化 为 零 ， 只 有 遇 到 相应 的 说 明 符 时 变量 值 才 发 生 改 变 。 因 此 ， 若 任何 一 个 变量 非 
零 ， 则 表明 它 的 说 明 符 已 经 出 现 过 ， 这 有 助 于 检测 错误 : 

(check for invalid use of the specifier 199) = 198 

if (*p) 
errorC"invalid use of '%k'\n", tt); 

一 旦 所 有 声明 的 说 明 符 都 分 析 完 ，sign、size 和 type 的 值 就 描述 相应 的 类 型 ， 函 数 enumdel 和 
structdel 分 别 分 析 枚 举 说 明 符 和 结构 或 联合 说 明 符 。 

如 果 sclass 为 空 指针 ， 则 未 指定 变量 的 存储 类 型 ， 因 此 将 cls 初始 化 为 存储 类 型 AUTO， 这 
样 就 可 以 捕捉 错误 。 因 此 ， 这 种 灵活 性 是 必需 的 。 因 为 当 分 析 抽 象 声 明 时 会 调用 specifier 函数 ， 
而 抽象 声明 没有 存储 类 型 ， 参 见 11.3 节 及 练习 11.3。 

上 面 的 switch 语句 将 指针 p 指向 相应 的 局 部 变量 ， 并 且 如 果 单 词 是 类 型 说 明 符 ， 则 将 ty 设 
置 为 Type。 类 型 定义 (typedef) 的 名 字 会 作为 ID 符号 处 理 ， 它 只 能 有 一 个 存储 类 型 或 限定 符 。 


(set p and ty 199) += 199 198 
case ID: 
if Cistypename(t, tsym) && type == 0 
&& sign == 0 & size == 0) { 
use(tsym, src); 
ty = tsym->type; 
p = &type; 
t = gettok(); 
} else 
p = NULL; 
break; 


在 对 声明 说 明 符 分 析 之 后 将 确定 相应 的 类 型 Type， 这 些 类 型 被 编码 在 sign, size 和 type 的 值 
H, Type 是 specifier 函数 的 返回 值 。 默 认 情况 下 ， 


200 # 11 #Ž 


{compute ty 200)= 200 198 
if (type == 0) { 
type = INT; 
ty = inttype; 
} 
short const x 将 x 声明 为 一 个 短 整 数 。 其 他 情形 根据 sign, size 和 type 来 决定 相应 的 类 型 : 
(compute ty200)+= — 200 290 198 


if (size == SHORT && type != INT 
|| size == LONG && type != INT && type != DOUBLE 
|l sign && type != INT && type != CHAR) 
errorC“invalid type specification\n"); 
if (type == CHAR && sign) 
ty = sign == UNSIGNED ? unsignedchar : signedchar; 
else if (size == SHORT) 
ty = sign == UNSIGNED ? unsignedshort : shorttype; 
else if (size == LONG && type == DOUBLE) 
ty = longdouble; 
else if (size == LONG) 
ty = sign == UNSIGNED ? unsignedlong : longtype; 
else if (sign == UNSIGNED && type == INT) 
ty = unsignedtype; 


在 CHAR 的 条 件 测试 中 明确 包含 sign 是 必要 的 ，sign 用 来 区 别 无 符号 、 有 符号 字符 型 与 普通 字 
符 型 ， 普 通 字 符 型 是 一 种 特殊 类 型 。 经 过 以 上 代码 、enumdcl 函数 或 structdcl 函数 计算 后 ， 结 果 
Type 还 可 能 受 const 或 volatile 限定 符 (或 二 者 同时 ) 的 限定 。 


(compute ty 200)+= 200 198 
if (cons == CONST) 
ty = qual(CONST, ty); 
if (vol == VOLATILE) 
ty = qual(VOLATILE, ty); 


声明 的 分 析 函 数 decl 首先 调用 specifier 函数 : 


(decl.c functions) += 198 202 
static void decl(dc1) 
Symbol (*dcl) ARGS((int, char *, Type, Coordinate *)); { 
int sclass; 
Type ty, tyl; 
static char stop[] = { CHAR, STATIC, ID, 0 }; 


ty = specifier(&sclass); 

TF Ct == IO JI t == "0 ff tee CC Ul tee ODI 
char *id; 
Coordinate pos; 
(id, tyl — the first declarator 201) 


for G33) i 
(declare id with type ty1 202) 
TE KE Ley 


break; 


t = gettokQ; 
(id, tyl — the next declarator 201 ) 
} 
} else if (ty == NULL 
|] !ty is an enumeration or has a tag)) 
error("empty declaration\n”); 


test(';', stop); 
} 
函数 delr 用 来 分 析 声 明 符 ， 我 们 在 下 一 节 详 细 介绍 。 第 二 个 以 及 后 续 声 明 符 的 处 理 较为 简单 : 
(id, tyl — the next declarator 201)= 201 
id = NULL; 


pos = src; 
tyl = dcir(ty, &id, NULL, 0); 
函数 delr 接受 基本 类 型 (specifier 函数 的 结果 ) 并 且 返 回 一 个 Type、 一 个 标识 符 ， 或 者 参数 列表 。 
上 述 代 码 中 的 ty 就 是 基本 类 型 ， 它 是 函数 der 的 第 一 个 参数 ， 接 着 出 现 的 两 个 参数 分 别 存放 标 
识 符 和 参数 列表 的 变量 的 地 址 。 函 数 dclr 返回 一 个 完整 的 Type 值 。 如 果 函 数 delr 的 第 三 个 参数 
是 空 指 针 ， 参 数列 表 将 不 能 出 现在 上 下 文中 。 在 11.3 节 中 可 以 看 到 ， 如 果 dclr 的 第 四 个 参数 非 
零 ，dclr 可 以 分 析 抽 象 声 明 符 。 在 声明 标识 符 时 ，pos 用 来 存放 声明 符 的 开始 在 源 文件 中 的 位 置 。 
由 于 delr 还 要 识别 出 函数 定义 ， 而 函数 定义 在 文件 作用 域 中 只 可 能 同 第 一 个 声明 符 混淆 ， 所 
以 第 一 个 声明 符 的 处 理 与 其 他 声明 符 是 不 同 的 : 
(id, tyl ~— the first declarator 201)= 200 
id = NULL; 
pos = src; 
if (level == GLOBAL) { 
Symbol *params = NULL; 
tyl = dclr(ty, &id, &params, 0); 
if (function definition? 201)) { 
(define function id 202) 
return; 
} else if (params) 
exitparams (params) ; 
} else 
tyl = dclIr(ty, &id, NULL, 0); 
由 于 第 一 个 声明 符 可 能 是 一 个 函数 定义 ， 所 以 要 把 参数 列表 的 非 空 地 址 作为 第 三 个 参数 传 给 dclr 
函数 。 若 该 声明 符 包含 一 个 函数 及 其 参数 列表 ， 则 params 将 设置 为 符号 表 入 口 数 组 。 如 果 参 数 
列表 非 空 且 又 不 是 函数 定义 的 一 部 分 ， 则 调用 exitparams 函数 关闭 为 该 参数 列表 打开 的 作用 域 。 
否则 ， 由 于 处 理 参 数列 表 的 分 析 函 数 还 不 能 区 别 函数 声明 和 函数 定义 ， 到 达 参 数列 表 的 末尾 时 ， 
该 作用 域 不 会 关闭 ， 详 细 论 述 参 见 11.4 节 。 
如 果 第 一 个 声明 符 说 明了 一 个 函数 类 型 并 包含 一 个 标识 符 ， 并 且 接 下 来 的 单词 是 复合 语句 或 
参数 声明 列表 的 开始 ， 那 么 该 声明 就 是 函数 定义 : 
(function definition? 201)= 201 
params && id && isfunc(ty1) 


&& (t == '{" |] istypename(t, tsym) 
|| Ckind[t] == STATIC && t != TYPEDEF)) 


202 He 11 F 


decl 通过 调用 funcdefn 函数 来 处 理 函 数 定义 ， 


(define function id 202 )= 201 
if (sclass == TYPEDEF) { 
errorC"invalid use of 'typedef'\n"); 
sclass = EXTERN; 


} 
if (tyl->u.f.oldstyle) 
exitscope(); ` 
funcdefn(sclass, id, tyl, params, pos); 


这 里 调用 exitscope 函数 来 关闭 parameters 打开 的 作用 域 ， 当 funcdefn 函数 分 析 参 数 声 明 时 会 重新 
打开 该 作用 域 。 

decl 函数 的 语义 部 分 相当 于 声明 在 声明 符 中 给 出 的 标识 符 。 正 如 上 面 所 介绍 的 ，decl 的 参数 
dclX 函数 进行 语义 处 理 (类 型 定义 除外 )。 


(declare id with type ty1 202)= 200 
if (Aflag >= 1 & !hasproto(tyl)) 
warning("missing prototype\n"); 
if Cid == NULL) 
error("missing identifier\n"); 
else if (sclass == TYPEDEF) 
(declare id a typedef for ty1 202 ) 
else 
(void) (*dcl)(sclass, id, tyl, &pos); 


类 型 定义 是 最 简单 的 情形 ， 此 时 语义 处 理 只 检查 错误 的 重复 声明 ,将 标识 符 id 存放 到 
identifiers 表 中 并 且 填 充 id 的 类 型 和 存储 类 属性 。 


(declare id a typedef for ty1202)= 202 
{ 
Symbol p = lookup(id, identifiers); 
if (p & p->scope == level) 
error("redeclaration of '%s'\n", id); 
p = installCid, &identifiers, level, 
level < LOCAL ? PERM : FUNC); 
p->type = tyl; 
p->sclass = TYPEDEF; 
p->Src = pos; 


} 

3 个 dclX 函数 复杂 得 多 。 每 个 dclX 函数 处 理 一 种 差别 细微 的 声明 的 语义 ，dclglobal 和 
dcllocal 还 要 分 析 初 始 化 表达 式 。dclglobal 函数 是 3 个 dclX 函数 中 最 复杂 的 ， 它 必须 处 理 有 效 的 
重复 声明 。 


例如 : 
extern int x[]; 
int x[10]; 
两 次 声明 x 都 是 有 效 的 。 第 二 个 声明 还 将 x 的 类 型 从 (ARRAY(NT)) 变 成 了 (ARRAY 40 4(INT))。 
(decl.c functions) += 200 295 


static Symbol dclglobal(sclass, id, ty, pos) 
int sclass; char *id; Type ty; Coordinate *pos; { 
Symbol p, 4; 
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{dclgloba]l 203 ) 
return p; 


decl 函数 接受 任何 句法 上 合法 的 说 明 符 和 声明 符 组 合 ， 因 此 delX 函数 必须 检查 说 明 符 在 特定 语 
义 环境 下 的 合法 性 ， 而 且 还 要 检查 重复 声明 。 例 如 dclglobal 函数 ， 要 求 存储 类 型 必须 是 外 部 的 、 
静态 的 或 者 省 略 存储 类 型 : 

(dclglobal 203 )= 203 203 

if (sclass == 0) 
sclass = AUTO; 
else if (sclass != EXTERN && sclass != STATIC) { 
error("invalid storage class '%k' for '%t %s'\n", 
sclass, ty, id); 
sclass = AUTO; 
} 
没有 存储 类 型 或 存储 类 型 非法 的 全 局 变量 dclglobal 函数 都 会 给 它 一 个 AUTO 存储 类 型 ， 这 样 所 
有 的 标识 符 都 有 一 个 非 空 的 存储 类 型 ， 简 化 了 其 他 程序 的 错误 检查 。 
接 下 来 ，dclglobal 函数 检查 错误 的 重复 声明 。 
(dc1global 203 )+= 203 204 203 
p = lookup(id, identifiers); 
if (p && p->scope == GLOBAL) { 
if (p->sclass != TYPEDEF && eqtype(ty, p->type, 1)) 
ty = compose(ty, p->type); 
else . 
error("redeclaration of '%s' previously declared _ 
at %w\n", p->name, &p->src); 
if (!isfunc(ty) & p->defined & t == '=') 
error("redefinition of 'Xs' previously defined _ 
| at %w\n", p->name, &p->src); 
(check for inconsistent linkage204 ) 
} 
如 果 两 个 声明 的 类 型 是 兼容 的 ， 则 重复 声明 是 合法 的 。 类 型 是 否 兼 容 由 eqtype 函数 决定 ， 结 
果 类 型 是 两 种 类 型 的 组 合 。 例 如 上 面 的 例子 ,经 过 组 合 ,，x 的 类 型 从 ( ARRAY(INT)) Æ T 
(ARRAY404(INT))。 有 一 些 重复 声明 是 合法 的 ,但 是 重 定义 (由 一 个 非 零 defined 标记 和 一 个 初 
始 量 标志 ) 在 任何 情况 下 都 是 非法 的 。 

一 个 标识 符 具有 3 种 链接 特性 之 一 。 外 部 链接 的 标识 符 可 以 被 其 他 独立 的 编译 单元 所 引 
Ho 那些 具有 内 部 链接 特性 的 标识 符 只 可 以 被 它 所 在 的 编译 单元 引用 。 参 数 和 局 部 变量 没有 链接 
特性 。 

没有 存储 类 型 或 者 第 一 次 声明 为 外 部 标识 符 的 全 局 变量 具有 外 部 链接 特性 ， 而 那些 声明 为 静 
态 的 全 局 变量 具有 内 部 链接 特性 。 对 于 其 他 的 声明 ， 省 略 存 储 类 型 或 者 声明 为 外 部 的 解释 稍 有 不 
同 。 如 果 是 省 略 存储 类 型 ， 那 么 它 就 具有 外 部 链接 特性 ; 但 是 如 果 存 储 类 型 是 外 部 的 ， ABA 
接 类 型 就 与 该 标识 符 在 文件 作用 域 中 前 一 次 声明 的 链接 特性 相同 。 这 样 ， 

Static int y; 

extern int y; 


就 是 合法 的 声明 并 且 y 具有 内 部 链接 特性 。 但 是 ， 
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extern int y; 

static int y; 
是 非法 声明 ， 第 二 个 声明 要 求 y 具有 内 部 链接 特性 ， 而 第 一 个 声明 已 经 说 明 y 具有 外 部 链接 特性 
了 。 多 次 声明 具有 相同 内 部 链接 特性 或 者 外 部 链接 特性 是 允许 的 。 

下 面 这 张 表 总 结 了 p->sclass (已 有 声明 的 存储 类 型 ) 与 sclass (当前 声明 的 存储 类 型 ) 之 间 的 
关系 。AUTO 表示 没有 存储 类 型 。 


sclass 
EXTERN STATIC AUTO 










EXTERN 


p->sclass STATIC J x 
AUTO x J 
V 表 示 合 法 的 组 合 ， 而 x 表示 链接 特性 错误 的 组 合 。dclglobal 函数 代码 就 源 自 于 这 张 表 : 
(check for inconsistent linkage 204) 三 203 


if (p->sclass == EXTERN && sclass == STATIC 
|| p->sclass == STATIC && sclass == AUTO 
I| p->sclass == AUTO && sclass == STATIC) 
warning("inconsistent linkage for '%s' previously _ 
declared at %w\n", p->name, &p->src); 


对 于 上 面 的 第 二 个 例子 ,该 站 语句 将 输出 警告 信息 。 
接 下 来 ， 全 局 变量 被 加 载 到 globals 表 中 ， 如 果 有 必要 ， 它 的 属性 值 也 会 被 初始 化 或 者 重 写 。 


(dclglobal 203 ) 十 三 203 295 203 
if (p == NULL || p->scope != GLOBAL) { 
p = install(id, &globals, GLOBAL, PERM); 
p->sclass = sclass; 
if (p->sclass != STATIC) { 
static int nglobals; 
nglobals++; 
if (Aflag >= 2 && nglobals == 512) 
warning("more than 511 external identifiers\n"); 


} 
(*IR->defsymbo1) (p); 
} else if (p->sclass == EXTERN) 
p->sclass = sclass; 
p->type = ty; 
p->src = *pos; 
新 的 全 局 变量 就 会 传 到 后 端的 defsymbol 接口 函数 ， 从 而 初始 化 它 的 x 域 。 如 果 已 有 的 全 局 变量 
具有 extern 存储 类 型 ， 并 且 该 声明 没有 存储 类 型 或 者 规定 为 静态 的 ， 则 该 全 局 变量 的 sclass 就 变 
为 STATIC 或 者 AUTO ， 以 确保 它 在 finalize 函数 中 定义 。 若 该 声明 规定 为 外 部 的 ， 则 对 sclass 的 
赋值 不 会 有 效果 。lec 的 选项 -A 使 得 系统 对 非 ANSI 标准 的 用 法 给 出 警告 。 例 如 ,标准 C 并 不 要 
求 每 个 C 语 言 的 实现 支持 在 一 个 编译 单元 允许 超过 511 个 外 部 标识 符 ， 因 此 ， 如 果 使 用 了 -A-A 
选项 ，lcc 对 于 太 多 的 外 部 标识 符 就 会 给 出 警告 信息 。 
标准 C 人 允许 编译 器 接受 如 下 声明 : 


fO { extern float gO; ... } 
WEGO Pos. 
hQ) { extern double gC); ... } 
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而 不 去 检测 第 一 个 g 的 声明 和 它 的 定义 (也 可 视 为 一 种 声明 ) 是 否 相 冲突 ， 也 不 会 去 检测 最 后 一 
个 g 的 声明 和 前 面 两 个 是 否 相 冲突 。 从 技术 上 说 ,每 一 个 g 的 声明 都 会 引入 一 个 不 同 的 标识 符 ， 
而 这 些 标识 符 都 限制 在 声明 的 复合 语句 的 作用 域 范围 内 。 但 是 上 述 3 个 关于 g 的 声明 都 有 外 部 链 
接 特性 ， 这 样 在 执行 时 必须 引用 相同 的 函数 。lcc 使 用 外 部 声明 符 表 来 给 出 这 一 类 错误 的 警告 信 
息 。dcllocal 函数 负责 将 具有 外 部 链接 类 型 的 标识 符 添加 到 外 部 声明 符 表 中 ， 而 且 函 数 dellocal 和 
dclglobal 都 可 用 来 检查 不 一 致 : 


(dcelglobal 203 ) += 204295 203 
{ 


Symbol q = lookup(p->name, externals); 
if (q && (p->sclass == STATIC 
|| !eqtype(p->type, q->type, 1))) 
warning("“declaration of '%s' does not match previous _ 
declaration at Xw\n", p->name, &q->src); 
} 


如 果 有 相应 的 初始 化 值 ，dclglobal 函数 最 后 将 分 析 初 始 化 值 : 


(dc191obal 203) += 5 203 
if (t == '=' && isfunc(p->type)) { 
errorC"illegal initialization for ‘%s'\n", p->name); 
t = gettokQ; 
initializer(p->type, 0); 
} else if (t = '=') 
initglobal(p, 0); 
else if (p->sclass == STATIC && !isfunc(p->type) 
&& p->type->size == 0) 
errorC"undefined size for '%t %s'\n", p->type, p->name); 


上 面 最 后 一 个 else 证 语句 是 对 具有 内 部 链接 特性 和 不 完全 类 型 的 标识 符 声明 进行 测试 ， 这 种 标识 
符 的 声明 是 非法 的 ; 一 个 很 好 的 例证 如 下 : 


static int x[]; 


如 果 有 初始 值 或 者 initglobal 的 第 二 个 参数 非 零 ， 则 initglobal 函数 分 析 初 始 值 ， 并 且 根 据 它 的 第 
一 个 参数 定义 该 全 局 变量 。initglobal 函数 在 适当 的 段 中 声明 该 全 局 变量 ， 分 析 其 初始 值 ， 调 整 其 
类 型 ， 并 标记 该 全 局 变量 为 已 定义 。 

(decl.c functions) += 202 206 


Static void initglobal(p, flag) Symbol p; int flag; { 
Type ty; 


if (t == ‘=" || flag) { 
if (p->sclass == STATIC) { 
for (ty = p->type; isarray(ty); ty = ty->type) 


defgltobal(p, isconst(ty) ? LIT : DATA); 


} else 
defglobal(p, DATA); 
if {t pas "a 


t = gettokQ; 
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ty = initializer(p->type, 0); 

if Cisarray(p->type) && p->type->size == 0) 
p->type = ty; 

if (p->sclass == EXTERN) 
p->sclass = AUTO; 

p->defined = 1; 

} 
} 


initializer 函数 分 析 初 始 值 ， 在 本 书 中 不 做 详细 介绍 。 如 果 p 的 类 型 是 一 个 未 知 大 小 的 数组 ， 那 么 
初始 化 会 规定 数组 大 小 并 完成 该 类 型 。 初 始 化 就 是 一 种 定义 ， 这 时 外 部 存储 类 型 就 等 于 没有 存储 
类 型 ， 因 此 必要 的 时 候 sclass 是 要 改变 的 。 这 种 改变 是 为 了 防止 doextern 函数 在 编译 最 后 为 p 调 
用 后 端的 import 函数 。 
defglobal 函数 通过 调用 相应 的 接口 函数 来 声明 参数 的 定义 。 
(decl.c functions) += 205 207 
void defglobal(p, seg) Symbol p; int seg; { 
p->u.seg = seg; 
swtoseg(p->u. seg) ; 
if (p->sclass != STATIC) 


(*IR->export) (p); 
(*IR->global) (p); 


(globals 206) = 28 
int seg; 
具有 外 部 链接 特性 的 标识 符 通 过 调用 export BE O pK BOK FS HA, global 函数 声明 实际 的 定义 。 
swtoseg(n) 函数 通过 调用 segment 接口 函数 来 转向 段 n (BSS, LIT, CODE 或 DATA 段 中 的 一 种 )， 
但 是 如 果 当 前 段 就 是 段 n， 它 就 不 会 调用 segment 函数 。defelobal 函数 在 全 局 的 useg 域 中 记录 
该 段 。 


11.3 声明 符 


在 decl 函数 中 ， 第 一 个 声明 符 的 分 析 <parse the first declarator> 被 当 作 一 种 特殊 情况 来 看 
待 ， 它 也 是 识别 声明 的 过 程 中 最 复杂 的 地 方 之 一 。 下 面 我 们 将 定义 什么 是 声明 符 (声明 的 对 象 )。 
声明 符 的 分 析 非 常 复杂 ， 主 要 困难 在 于 声明 中 基本 类 型 出 现在 修饰 符 的 前 面 。 例 如 ，int *x 说 
HH x 的 类 型 为 (POINTER(NT)), 但 是 当 分 析 该 声明 符 时 ， 若 采取 从 左 至 右 的 顺序 进行 类 型 构 
建 ， 则 会 产生 无 意义 的 类 型 ( INT(POINTER))。 操 作 符 [] 和 ( ) 的 优先 级 也 会 导致 类 似 的 困难 ， 
例如 : 


int *x[{10), *fQ; 


这 里 x 和 上 的 类 型 分 别 是 : 


(ARRAY 10 (POINTER CINT))) 
(POINTER (FUNCTION CINT))) 


* 在 单词 流 中 的 位 置 相同 ， 但 是 在 类 型 表示 中 却 处 于 不 同 的 位 置 。 

这 些 例 子 都 说 明 ， 在 分 析 过 程 中 构建 一 个 临时 的 逆序 类 型 是 比较 容易 的 ， 所 以 delr 函数 首先 
构建 逆序 类 型 ， 然 后 从 后 向 前 遍历 该 逆序 类 型 以 构建 相应 的 顺序 类 型 。dclr 函数 的 第 一 个 参数 是 
基本 类 型 ， 即 specifier 函数 返回 的 类 型 值 。 
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(decl.c functions) += 206 207 
static Type dcIr(basety, id, params, abstract) 
Type basety; char **id; Symbol **params; int abstract; { 
Type ty = dclrl(id, params, abstract); 
for ( ; ty; ty = ty->type) 
switch (ty->op) { 
case POINTER: 
basety = ptr(basety); 
break; 
case FUNCTION: 
basety = func(basety, ty->u.f.proto, 
ty->u.f.oldstyle); 
break; 
case ARRAY: 
basety = array(basety, ty->size, 0); 
break; 
case CONST: case VOLATILE: 


basety = qual(ty->op, basety); 
break; 


} 
if (Aflag >= 2 && basety->size > 32767) 


warning("more than 32767 bytes in '%t'\n", basety); 
return basety; 


} 


delr! 函数 分 析 声 明 符 并 返回 一 个 逆序 类 型 ， 根据 这 个 类 型 ，dclr 就 可 以 构建 并 返回 一 个 正常 的 
Type. BX id Ml param 设置 为 声明 的 标识 符 和 参数 列表 。 练 习 11.3 将 介绍 abstract 参数 。dclrl 
函数 用 Type 结构 存放 逆序 类 型 的 各 元 素 ， 调 用 tnode 函数 为 各 元 素 分 配 存 储 空间 并 进行 初始 化 : 


(decl.c functions) += 207 298 
static Type tnode(op, type) int op; Type type; { 
Type ty; 


NEWO(ty, STMT); 
ty->op = op; 
ty->type = type; 
return ty; 


} 
dclrl 是 声明 符 的 分 析 函 数 ， 声 明 符 的 语法 格式 为 : 
declarator: 
pointer direct-declarator { suffix-declarator } 


direct-declarator: 
identifier 
‘(' declarator ‘)' 


suffix-declarator: 
'[" [ constant-expression | ']' 
'(' [ parameter-list ] ')' 


pointer: { * { type-qualifier } } 
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分 析 声 明 符 与 分 析 表 达 式 类 似 。“*”“( ”和 “[” 是 操作 符 ， 而 标识 符 和 参数 列表 是 操作 数 。 
操作 符 产 生 逆序 类 型 的 元 素 ， 操 作 数 设 置 id 或 params 参数 。 


(decl.c functions) += 207 211 
static Type dclrl(id, params, abstract) 
` char **id; Symbol **params; int abstract; { 
Type ty = NULL; 


switch (t) { 

case ID: (ident 208) break; 

case '*': t = gettok(); (pointer 208) break; 

case '(': t = gettok(); (abstract function 210) break; 
case '[': break; 

default: return ty; 


while (t == '(' || t == '[') 
switch (t) { 
case '(': t = gettok(); { (concrete function 209) } 


break; 
case '[': t = gettok(); { (array 209) } break; 
} 
return ty; 
} 
如 果 id 非 空 ， 则 它 指向 存储 标识 符 的 地 址 ， 否 则 表明 该 声明 符 没 有 包含 标识 符 。 
(ident 208)= 208 
if (id) 
*id = token; 
else 


error("“extraneous identifier ‘%s'\n", token); 
t = gettok(); 


指针 可 能 夹杂 任意 数量 的 const BK volatile 限定 符 。 例 如 : 


int *const *const volatile *p; 


声明 p 为 一 个 指向 常 volatile 指针 的 指针 ， 而 该 常 volatile 指针 又 指向 了 一 个 常 指 针 ， 这 个 常 指针 
则 指向 一 个 整数 。p 和 ***p 是 可 以 改变 的 ， 而 部 和 **p 不 能 改变 , (E *p Æ volatile 的 ， 可 以 通 
过 某 些 外 部 途径 改变 。dclrl 返回 上 述 声 明 符 的 逆序 类 型 : 

[POINTER [CONST [POINTER [VOLATILE [CONST [POINTER] ]]}]] 
甚 中方 括号 标识 了 逆序 类 型 的 元 素 。dcir 最 后 返回 的 类 型 为 : 

(POINTER (CONST+VOLATILE (POINTER (CONST POINTER CINT))))) 


分 析 指 针 的 代码 如 下 : 


(pointer 208 ) 三 208 
if (t == CONST || t == VOLATILE) { 
Type tyl; 
tyl = ty = tnode(t, NULL); 


xB aA 209 
while ((t = gettok()) == CONST || t == VOLATILE) 
tyl = tnode(t, tyl); 
ty->type = dclriCid, params, abstract); 
Cys tyl; 
} else 


ty = dclrlCid, params, abstract); 
ty = tnode(POINTER, ty); 


对 dclrl 的 递归 调用 ， 使 得 dclrl 中 的 其 他 部 分 没 必 要 把 它们 的 逆序 类 型 添加 到 指针 类 型 上 (如果 
出 现 了 指针 )。 练 习 11.2 将 做 详细 叙述 。 

delr! 执行 完 第 一 个 switch 语句 后 ，ty 等 于 指针 或 函数 的 逆序 类 型 ， 或 者 为 空 。 后 级 操作 符 
“[” 和 “(” 将 雪 包 在 逆序 类 型 的 相应 元 素 中 。 对 于 数组 的 处 理 如 下 所 示 : 


(array 209 )= 208 
int n= 0; 
if (kind[t] == ID) { 
n = intexpr(']', 1); 
if (n <= 0) { 
error("'%d' is an illegal array size\n", n); 


} else 

expect(']'); 
ty = tnode(ARRAY, ty); 
ty->size = n; 
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就 肯定 是 说 明 函 数 类 型 ; 


(concrete function 209 ) = 208 
Symbol *args; 
ty = tnode(FUNCTION, ty); 
(open a scope in a parameter list 209) 
args = parameters(ty); 
if (params && *params == NULL) 
*params = args; 
else 
exitparams (args); 


(open a scope in a parameter list 209)= 209 210 
enterscope(); 
if (level > PARAM) 
enterscope(); 


函数 类 型 中 的 参数 列表 打开 一 个 新 的 作用 域 ， 因 此 ， 在 这 种 情况 下 需要 调用 enterscope K 
数 。 第 二 次 调用 enterscope 函数 是 为 了 处 理 一 种 特殊 情况 ， 即 参数 列表 本 身 又 包含 另外 一 个 作用 
域 。 例 如 ， 在 如 下 声明 中 : 


void f(struct T { int (*fp)(struct T { int m; }); } x) { 
struct T { float a; } y; 
} 
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f 函数 的 参数 列表 打开 一 个 新 的 作用 域 ， 定 义 了 结构 标记 T。 该 结构 唯一 的 域 旬 是 一 个 指向 函数 
的 指针 ; 该 函数 的 参数 列表 又 打开 男 外 一 个 新 的 作用 域 ， 并 定义 了 一 个 不 同 的 结构 标记 T。 这 种 
声明 是 合法 的 。 但 第 二 行 是 错误 的 声明 ， 因 为 它 重复 定义 了 标记 T 一 一 f 的 参数 x、 标 记 T 了 与 f 的 
局 部 变量 y 及 标记 了 都 在 同一 个 作用 域 范围 中 。 

对 于 在 顶层 参数 作用 域 范围 内 声明 的 标识 符 ，lcc 使 用 PARAM 作用 域 ， 而 对 于 类 似 于 y 的 
标识 符 使 用 LOCAL EMIR, LOCAL 等 于 PARAM+1。 这 种 分 法 只 是 为 了 使 用 方便 。 例 如 ， 可 以 
使 foreach 函数 只 访问 参数 。 但 是 ， 在 检查 重复 声明 时 ， 必 须 检 查 LOCAL 标识 符 是 不 是 错误 地 
重复 声明 了 PARAM 标识 符 。 

上 面 的 例子 是 不 需要 检查 重复 声明 的 情况 之 一 。 代 码 中 舱 套 的 参数 列表 的 作用 域 层 数 至 少 是 
PARAM+2。 这 种 作用 域 的 “空洞 ”避免 了 错误 的 重复 声明 诊断 。 例 如 ， 人 地 的 参数 标记 工 的 作用 
域 是 PARAM+2， 而 x 的 标记 T 的 作用 域 是 PARAM， 这 样 就 不 会 导致 重复 声明 错误 。 

函数 调用 或 调用 enterscope 函数 而 打开 的 作用 域 ， 在 合适 的 地 方 ， 必 须 通 过 调用 相应 的 
exitscope 函数 来 关闭 。 参 数列 表 可 以 看 作 是 函数 定义 的 一 部 分 ， 或 者 只 看 作 声明 的 一 部 分 。 如 果 
参数 列表 出 现在 函数 定义 中 ，params 为 非 空 ， 并 且 未 预先 定 值 ， 则 decl 函数 的 调用 者 必须 在 适 
当 的 时 候 调 用 exitscope 函数 。 例 如 ， 在 decl 函数 的 <id, tyl the first declarator> 段 中 ， 就 调用 
了 exitparams 函数 。exitparams 限 数 检查 旧 风 格 的 参数 列表 中 是 否 有 错 ， 并 调用 exitscope 函数 。 
如 果 params 是 空 指针 或 者 已 经 有 参数 列表 ， 则 该 参数 列表 不 能 作为 函数 定义 的 一 部 分 ， 必 须 立 


即 调用 exitscope 函数 。 
抽象 声明 符 使 得 用 圆 括号 分 组 更 加 复杂 ， 它 的 处 理 将 在 练习 11.3 中 介绍 。 
(abstract function 210)= 208 


if (abstract 
&& (t == REGISTER || istypename(t, tsym) || t == ')')) { 
Symbol *args; 
ty = tnode(FUNCTION, ty); 
(open a scope in a parameter list 209) 
args = parameters(ty); 
exitparams(args) ; 
} else { 
ty = dclri(id, params, abstract); 
expect(')'); 
if (abstract && ty == NULL 
&& Cid == NULL || *id == NULL)) 
return tnode(FUNCTION, NULL); 
】 


如 果 delr 函数 的 第 四 个 参数 非 零 ， 意 味 着 dclr 函数 当前 分 析 的 是 抽象 声明 符 。 如 果 左 括号 后 跟 有 
新 风格 的 参数 列表 或 非 空 的 声明 符 以 及 匹配 的 右 括号 ， 那 么 该 左 括号 标记 了 一 个 参数 列表 。 由 于 
抽象 声明 符 不 在 函数 定义 中 出 现 ， 所 以 在 分 析 完 参数 列表 后 可 立即 调用 exitparams 函数 。 


11.4 ”函数 声明 符 
C 语言 标准 允许 函数 声明 和 函数 定义 包含 旧 风格 或 新 风格 的 参数 列表 ， 其 语法 格式 为 : 


parameter-list: 
parameter { , parameter}[, ... ] 
identifier { , identifier } 
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parameter: 
declaration-specifiers declarator 
declaration-specifiers { abstract-declarator ] 


旧 风 格 的 参数 列表 其 实 就 是 标识 符 列表 ， 而 新 风格 的 参数 列表 可 以 是 : 声明 符 列表 (每 个 参数 一 
个 声明 符 ) ; 至少 一 个 参数 后 面 接着 逗号 和 省 略 号 (…)， 以 表示 一 个 参数 数目 可 变 的 函数 ; 一 个 
类 型 说 明 符 void， 以 说 明 一 个 没有 参数 的 函数 。 在 函数 声明 和 定义 中 ， 这 两 种 风格 以 及 它们 之 间 
的 相互 作用 使 得 识别 和 分 析 参 数列 表 非 常 复杂 。 

parameters 函数 可 以 分 析 这 两 种 风格 的 参数 列表 。 它 将 每 个 参数 登记 在 当前 作用 域 层 的 
identi-fiers 表 中 ， 从 上 一 节 可 以 看 到 ， 当 前 作用 域 由 parameters 的 调用 者 通过 enterscope 函数 建 
立 。parameters 返回 一 个 指向 以 null 结尾 的 符号 数组 的 指针 ， 函 数 的 每 个 参数 都 对 应 数组 的 一 个 
元 素 。 参 数列 表 的 第 一 个 单词 可 以 识别 其 风格 类 型 ; 


(decl.c functions) += 208 2 12 
static Symbol *parameters(fty) Type fty; { 
List list = NULL; 
Symbol *params; 


if (kind[t] == STATIC || istypename(t, tsym)) { 
{parse new-style parameter list213) 

} else { 
(parse old-style parameter list 211) 


} 

TF (tia "YD f 
static char stop[] = { CHAR, STATIC, IF, '}', 0 }; 
expect(")'); 
skipto('{', stop); 


} 
if Ct == ")") 

t = gettok(); 
return params; 


} 


parameters 函数 还 使 用 参数 信息 注释 函数 类 型 fy， 如 下 所 示 。 
旧 风 格 的 参数 只 是 简单 地 被 收集 到 List 中 ， 在 识别 所 有 参数 后 ，List 转换 为 一 个 以 null 结尾 
的 数组 。 


(parse old-style parameter list 211)= 211 
if (t == ID) 
for Cit 

Symbol p; 

if (t t= ID) { 
error("expecting an identifier\n"); 
break; 

} 

p = dclparam(0, token, inttype, &src); 

p->defined = 0; 

list = append(p, list); 

t = gettok(); 

TF AE ian 
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break; 
t = gettok(); 


} 
params = Itov(&list, FUNC); 

fty->u.f.proto = NULL; 

fty->u.f.oldstyle = 1; 
lec 调用 delparam 函数 ， 将 参数 装载 到 identifiers 表 中 。 此 时 参数 的 类 型 还 是 未 知 的 ， 所 以 暂且 
作为 整 型 。 如 果 参 数列 表 是 函数 定义 的 一 部 分 (必须 是 )， 在 调用 funcdefn 函数 处 理 声明 时 ， 这 
些 符 号 就 会 丢弃 ， 再 重新 加 入 表 中 。 此 时 将 它们 加 入 表 中 ， 仅 是 为 了 检测 重复 参数 。lcc 通过 将 
defined 位 设 为 0 来 标识 旧 风 格 的 参数 。 函 数 类 型 fty 也 记录 了 它 是 旧 风 格 的 。 

在 下 面 会 看 到 ， 如 果 参 数列 表 不 是 处 在 函数 定义 中 ， 当 处 理 到 其 末尾 时 ， 新 风格 的 参数 在 构 
造 完 原型 之 后 就 退出 其 作用 域 。 但 此 时 使 用 旧 风 格 的 参数 列表 则 是 错误 的 。 例 如 声明 : 

int (*f)Cint a, float b); 

int (*g)(a, b); 
第 1 行 是 一 个 合法 的 新 风格 声明 ， 声 明了 类 型 

(POINTER (FUNCTION CINT) {CINT) (FLOAT)})) 
但 第 2 行 则 是 对 类 型 

(POINTER (FUNCTION CINT))) 


非法 的 旧 风 格 声明 ， 因 为 其 参数 列表 不 是 处 在 一 个 函数 定义 的 上 下 文中 。exitparams 函数 报告 了 
这 种 错误 : 
(decl.c functions)+= ahi 214 
static void exitparams(params) Symbol params[]; { 
if (params[0] && !params[0]->defined) 
error("extraneous old-style parameter list\n"); 
(close a scope in a parameter list 212) 


(close a scope in a parameter list 212)= 212 
if (level > PARAM) 
exitscope() ; 
exitscope(); 


正如 练习 2.15 所 提 到 的 ，ltov 函数 返回 的 数组 至 少 有 一 个 以 null 结尾 的 元 素 ， 所 以 如 果 params 
来 自 于 parameters， 那 么 它 一 定 是 非 空 的 。 

新 风格 的 参数 列表 可 以 有 几 种 变 体 ， 更 为 复杂 。 参 数列 表 可 以 包含 标识 符 ， 也 可 以 不 包含 ， 
这 取决 于 它 是 不 是 处 在 函数 定义 中 。 各 种 变 体 都 可 能 以 “，…” 结 束 ， 而 且 仅 包含 void 的 参数 
列表 既 可 以 在 函数 定义 中 出 现 ， 也 可 以 在 声明 中 出 现 。 另 外 ， 新 风格 的 声明 为 函数 类 型 提供 了 一 
个 原型 ， 该 原型 必须 保留 下 来 ， 用 来 检查 函数 调用 以 及 该 函数 的 其 他 声明 的 一 致 性 。 如 果 有 函数 
定义 ， 还 用 于 检查 其 定义 。 正 如 4.5 节 所 介绍 的 ， 一 个 没有 参数 的 新 风格 函数 的 原型 长 度 为 零 。 
一 个 参数 数目 可 变 的 函数 原型 至 少 有 两 个 元 素 ， 且 最 后 一 个 元 素 的 类 型 是 void。 用 void 表示 参 
数 数目 可 变 是 一 种 编码 技巧 (其 作用 值得 怀疑 )。void 不 会 出 现在 源码 中 ， 也 不 会 在 原型 中 出 现 ， 
因此 不 会 与 void 参数 相 混 淆 。 
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(parse new-style parameter list213)= 211 
int n = 0; 
Type tyl = NULL; 
for C352) A 
Type ty; 
int sclass = 0; 
char *id = NULL; 
if (tyl && t == ELLIPSIS) { 
{terminate list for a varargs function 213) 
t = gettok(); 
break; 
} 
if (!istypename(t, tsym) && t != REGISTER) 
error("missing parameter type\n"); 
n++; 
ty = dcir(specifier(&sclass), &id, NULL, 1); 
{declare a parameter and append it to list 213) 
if (tyl == NULL) 
tyl = ty; 
TF Cee" ") 
break; 
t = gettok(); 


} 
(build the prototype 214) 
fty->u.f.oldstyle = 0; 


tyl 是 第 一 个 参数 的 Type， 如 上 所 示 ， 用 来 检查 对 void 和 省 略 号 的 错误 使 用 。 每 一 个 参数 都 是 一 
个 声明 符 ， 所 以 使 用 specifier 和 delr 函数 中 的 方法 来 分 析 参 数 ， 但 是 参数 仅 允 许 是 register 存储 
类 型 。 如 果 出 现 void 类 型 ， 那 么 它 必须 单独 且 第 一 个 出 现 : 


(declare a parameter and append it to list 213)= 213 
if C ty == voidtype && (tyl || id) 
|] tyl == voidtype) 
error("illegal formal parameter types\n"); 
if Cid == NULL) 
id = stringd(n); 
if (ty != voidtype) 
list = append(dclparam(sclass, id, ty, &src), list); 


省 略 的 标识 符 被 赋予 一 个 整数 名 字 ， 如 果 该 声明 是 函数 定义 的 一 部 分 ， 则 delparam 函数 将 对 省 略 
标识 符 的 情况 报错 。 

如 果 参 数列 表 的 长 度 可 变 ， 则 在 列表 的 未 尾 加 上 一 个 静态 分 配 的 符号 ， 该 符号 名 字 为 空 ， 类 
型 是 void。 


(terminate list for a varargs function 213)= 213 
Static struct symbol sentinel; 
if (sentinel.type == NULL) { 
sentinel.type = voidtype; 
sentinel .defined = 1; 
} 
if (tyl == voidtype) 
error("illegal formal parameter types\n"); 
list = append(ésentinel, list); 
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在 分 析 完 新 风格 的 参数 列表 之 后 ，list 将 按 参 数 出 现 的 顺序 保存 参数 符号 。 这 些 符 号 构成 了 
parameters 函数 返回 的 params 数组 ， 它 们 的 类 型 构成 了 该 函数 类 型 的 原型 : 


(build the prototype 214)= 213 
fty->u.f.proto = newarray(length(list) + 1, 
sizeof (Type *), PERM); 
params = Itov(&list, FUNC); 
for (n = 0; params{n]; n++) 
fty->u.f.proto[n] = params[n]->type; 
fty->u.f.proto[n] = NULL; 


delparam 函数 对 于 新 风格 和 旧 风 格 的 参数 都 可 以 声明 。 对 于 每 一 个 参数 ， lcc 会 调用 delparam 
函数 两 次 。 第 一 次 是 在 parameters 函数 中 调用 ， 第 二 次 是 在 funcdefn 函数 中 调用 。 如 果 参 数列 表 
不 是 处 在 函数 定义 中 ，lcc 则 调用 exitscope 函数 (在 exitparams 函数 中 ) 来 撤销 dclparam 在 符号 
表 中 建立 的 记录 。 
(decl.c functions) += 22 2 16 
static Symbol dclparam(sclass, id, ty, pos) 


int sclass; char *id; Type ty; Coordinate *pos; { 
Symbol p; 


(dclparam 214) 
return p; 
} 


声明 参数 与 声明 全 局 变量 不 同 ， 声 明 参 数 更 简单 一 些 。 首 先 ， 类 型 (ARRAYT) 和 (FUNCTION 
T) 退化 为 (POINTERT) 和 (POINTER(FUNCTION T)): 


(dclparam 214) 三 214 214 
if Cisfunc(ty)) 
ty = ptr(ty); 
else if Cisarray(ty)) 
ty = atop(ty); 


虽然 参数 只 人 允许 是 register 存储 类 型 ， 但 是 lcc 函数 内 部 使 用 auto 来 标识 非 register 类 型 的 
参数 。 


(dclparam 214)+= 24 215 214 
if (sclass == 0) 
sclass = AUTO; 
else if (sclass != REGISTER) { 
errorC"invalid storage class ‘%k‘ for '%t%s\n", 
sclass, ty, (id 214)); 
sclass = AUTO; 
} else if Cisvolatile(ty) || isstruct(ty)) { 
warning("register declaration ignored for 'X%t%s\n", 
ty, (id214)); 
sclass = AUTO; 
} 


(id214)= 214 
stringfCid ? " %s'" : “* parameter”, id) 


参数 只 允许 声明 一 次 ， 因 而 参数 的 重复 声明 检查 很 容易 进行 : 
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(dclparam 214)+= a ays 214 
p = lookupCid, identifiers); 
if (p && p->scope == level) 
error("duplicate declaration for '%s' previously _ 
declared at %w\n", id, &p->src); 
else 
p = install(id, &identifiers, level, FUNC); 


最 后 ，dclparam 函数 对 p 的 其 他 域 进行 初始 化 ， 检 查 并 处 理 非法 的 初始 化 : 


{dclparam 214)+= 215 214 
p->sclass = sclass; 
p->src = *pos; 
p->type = ty; 
p->defined = 1; 
if (t == '=') { 
error("illegal initialization for parameter '%s'\n", id); 
t = gettok(); 
(void) expri(0); 
} 
参数 经 过 声明 后 ， 就 通过 function 接口 函数 通知 了 编译 后 端 ， 因 此 将 其 视 为 已 定义 ， 详 细 介 
绍 见 11.6 节 。 


11.5 ”结构 说 明 符 


从 语法 上 来 说 ， 结 构 、 联 合 和 枚 举 说 明 符 都 与 通过 int, float 等 关键 字 说 明 的 类 型 是 一 样 的 。 
然而 从 语义 上 来 说 ， 它 们 定义 了 新 的 类 型 。 结 构 或 联合 说 明 符 定义 了 一 个 由 有 名 域 组 成 的 聚合 类 
型 ， 枚 举 说 明 符 定义 了 一 个 类 型 以 及 相关 的 有 名 整 型 常量 集合 。 练 习 11.9 将 详细 介绍 枚 举 说 明 
符 。 结 构 和 联合 说 明 符 的 语法 如 下 : 

struct-or-union-specifier: 


struct-or-union [ identifier ] '{' fields { fields } ‘}' 
struct-or-union identifier 


struct-or-union: struct | union 


fields: 
{ type-specifier | type-qualifier } field { , field} ; 


field: 
declarator 
[ declarator | : constant-expression 


标识 符 是 结构 或 者 联合 的 标记 ， 只 有 当 说 明 符 包含 域 的 列表 时 它 才 是 可 选 的 。 如 果 结 构 或 联 
合 说 明 符 struct-or-union-specifier 包含 域 ， 或 者 单独 出 现在 声明 中 并 且 在 同一 个 作用 域 中 没有 相同 
标记 的 结构 、 联 合 或 枚 举 类 型 定义 ， 那 么 它 就 定义 了 一 种 新 的 类 型 。 语 法 的 最 后 一 类 定义 是 相互 
递归 的 结构 声明 。 例 如 : 

struct head { struct node *list; ... }; 

struct node { struct head *hd; struct node *link; ... }; 

上 面 的 定义 说 明了 head 的 一 个 实例 的 list 域 指向 链表 中 的 节点 ， 且 每 一 个 node 节点 都 指向 链表 
头 head。 该 链表 通过 link 指针 链接 起 来 。 但 是 ， 如 果 在 外 层 作用 域 已 经 声明 node 为 某 结构 或 联 
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合 的 标记 ，list 就 成 为 指向 该 类 型 的 指针 ， 而 不 是 指向 这 里 声明 的 node 结构 类 型 。 如 果 接 下 来 把 
指向 node 的 指针 赋 给 list 就 会 发 生 错误 。 如 果 交 换 上 述 两 行 代码 来 解决 list 的 问题 ， 则 head 又 
会 遇 到 相同 的 问题 。 解 决 的 办 法 应 该 是 在 定义 head 之 前 定义 新 类 型 : 


struct node; 
struct head { struct node *list; ... }; 
struct node { struct head *hd; struct node sminka ... 4; 


单独 的 struct node， 在 其 所 处 作用 域 范围 内 定义 了 一 个 新 的 不 完整 类 型 ， 其 标记 为 node， 以 屏蔽 
外 层 作 用 域 中 其 他 名 为 node 的 标记 (如 果 有 的 话 )。 如 果 在 同一 个 作用 域 中 还 有 一 个 形 如 struct 
node 定义 的 结构 标记 node， 那 么 后 一 个 声明 将 不 起 作用 。 

structdcl 是 结构 或 联合 说 明 符 的 分 析 函 数 ， 负 责 处 理 它们 的 标记 和 定义 ， 并 调用 fields K 
数 来 分 析 各 域 以 及 为 每 个 域 计算 偏 移 量 。 除 了 对 域 偏 移 量 计算 不 同 外 ， 联 合 和 结构 的 处 理 是 相 
同 的 。 


(decl.c functions) += 74 2 18 
static Type structdcl(op) int op; { 
char *tag; 
Type ty; 
Symbol p; 
Coordinate pos; 


t = gettok(); 
pos = src; 
{structdcl 216) 
return ty; 


} 
structdel 函数 首先 处 理 标记 ， 若 标记 省 略 ， 则 使 用 空 串 : 


(structdc1 216)= 
if (t == ID) { 
tag = token; 
t = gettokQ); 
} else 
tag am ae. 


如 果 标 记 后 面 有 域 列表 ， 那 么 该 说 明 符 就 定义 了 一 个 新 的 标记 : 


(structdcl 216)+= 216 27 216 
If yt 
static char stop[] = { IF, ',', 0}; 
ty = newstruct(op, tag); 
ty->u.sym->src = pos; 
ty->u.sym->defined = 1; 
t = gettok(); 
if Cistypename(t, tsym)) 
fields(ty); 
else 
errorC"invalid %k field declarations\n", op); 
test('}', stop); 
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newstruct 函数 用 来 检查 标记 的 重复 声明 并 定义 新 的 类 型 。 如 果 标 记 是 空 的 ，newstruct 函数 就 调用 
genlabel 函数 来 生成 一 个 标记 ，newstruct 函数 还 用 来 处 理 枚 举 说 明 符 ， 详 见 练习 11.9。 
如 果 struct-or-union-specifier 没有 fields 且 该 标记 已 被 某 类 型 使 用 (用 op 的 值 来 标识 )， 则 该 
说 明 符 就 指向 那个 类 型 。 
{structdcl 216)+= 216 217 216 
else if (*tag && (p = lookup(tag, types)) != NULL 
&& p->type->op == op) { 
ty = p->type; 
if (t == ';' && p->scope < level) 
ty = newstruct(op, tag); 
} 


这 种 情形 也 可 处 理 上 面 描述 的 类 型 重复 定义 的 异常 : 如 果 一 个 标记 在 外 层 作 用 域 中 已 定义 ， 并 且 
说 明 符 独 自 出 现在 一 个 声明 中 ， 则 这 个 说 明 符 就 定义 了 一 种 新 的 类 型 。 正 如 第 3 章 中 所 介绍 的 ， 
标记 有 它们 自己 的 名 字 空 间 ， 由 types 表 来 管理 。 
如 果 上 面 的 这 些 情形 未 出 现 ， 则 必定 有 一 个 标记 且 该 说 明 符 定义 一 种 新 的 类 型 : 
(structde] 216)+= 27 216 
else { 
if (*tag == 0) 
error("missing %k tag\n", op); 
ty = newstruct(op, tag); 


} 
if (*tag & xref) 
use(ty->u.sym, pos); 
上 面 最 后 一 个 else 语句 处 理 的 情形 是 : 当 一 个 说 明 符 单独 出 现在 一 个 声明 中 ， 且 该 标记 在 外 层 作 
用 域 中 已 经 由 于 其 他 原因 定义 过 了 ， 例 如 : 


enum node { ... }; 
f(void) { 
struct node; 
struct head { struct node *list; ... }; 
struct node { struct head *hd; struct node *link; ... }; 


} 
上 面 的 else 语句 就 是 处 理 第 三 行 中 的 struct node. 

处 理 结构 和 联合 说 明 符 的 复杂 性 主要 在 于 分 析 它 们 所 包含 的 域 以 及 计算 其 偏 移 量 ， 尤 其 是 涉 
及 位 域 的 说 明 符 。 域 必须 按照 它们 在 fields 表 中 出 现 的 次 序 存放 ， 偏 移 量 取决 于 其 类 型 和 类 型 的 
对 齐 限制 。 位 域 分 配 在 可 编 址 的 存储 单元 中 ， 如 果 NN 个 位 域 可 以 存放 在 一 个 存储 单元 中 ， 那 么 
它们 必须 按照 声明 次 序 来 存放 ， 但 是 该 次 序 可 以 按 低位 到 高 位 或 者 高 位 到 低位 排列 。 传 统 上 都 是 
按照 地 址 递增 的 次 序 来 存放 : 在 低位 优先 的 目标 机 器 上 按照 低位 到 高 位 的 次 序 (从 右 到 左 ) 存放 ， 
而 在 高 位 优先 的 目标 机 器 上 则 是 按照 高 位 到 地 位 (从 左 到 右 ) 的 次 序 存放 。 但 是 编译 器 不 会 强制 
分 割 位 域 ， 使 其 跨 存储 单元 ， 并 且 它 会 为 位 域 选 择 任何 存储 单元 。lcc 使 用 无 符号 整数 存储 位 域 ， 
这 样 位 域 就 可 以 通过 整数 的 读 取 、 存 储 及 屏蔽 操作 来 获取 并 存储 。 

图 11-1 展示 了 一 个 结构 定义 及 该 结构 在 低位 优先 的 MIPS 机 器 中 的 存放 。 无 符号 整数 是 32 
位 的 ， 整 数 和 无 符号 整数 按照 4 个 字 节 的 边界 对 齐 。 由 数组 a 的 元 素 分 布 可 以 看 出 ， 地 址 是 从 右 
到 左 依次 增加 的 ， 图 右 侧 的 数据 说 明了 偏 移 量 从 上 到 下 依次 增加 的 情况 。 阴 影 区 域 反 映 了 对 齐 
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约束 产生 的 空洞 ， 深 阴影 区 域 为 26 位 无 名 位 域 。 这 令 例子 有 助 于 我 们 理解 fields 的 复杂 性 以 及 
fields 的 分 析 函 数 。 


mama 
_ Wo 


struct { 

char a(5]; 

short sl, s2; 

unsigned code:3, used:1; 
unsigned :26; 

int amt:7, last; 

short id; 
Xi 





w 


图 11-1 低位 优先 的 结构 布局 示例 


fields 函数 分 析 域 列表 并 且 构 建 一 个 由 ty->u.sym->u.s.flist fields 引导 的 field 结构 列表 。field 
结构 在 4.6 节 中 有 详细 介绍 。 它 的 name, type 和 offset 域 分 别 给 出 了 域名 、 类 型 和 它 的 偏 移 量 ， 
偏 移 量 为 距离 结构 首 地 址 的 字 节 数 。 对 于 位 域 来 说 ，bitsize 给 出 了 位 域 的 位 数 ，lsb 等 于 位 域 最 低 
位 的 位 号 加 1， 所 有 目标 机 器 上 最 低位 的 位 号 都 从 0 开始 计算 。 位 域 可 以 用 一 个 非 零 值 的 lsb 来 
标识 。field 结构 列表 通过 link 域 链接 在 一 起 。 对 于 图 11-1 所 示 的 例子 ， 下 面 的 表格 列 出 了 保存 
field 的 列表 。 


lsb 


coe 
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fields 函数 首先 构建 一 个 fields 列表 ， 然 后 通过 遍历 该 列表 来 计算 偏 移 量 和 位 域 的 位 置 : 


(decl.c functions) += 216 223 
static void fields(ty) Type ty; { ~ 
{ (parse fields218) } 
{ .(assign field offsets 220) } 


分 析 fields 列表 时 ，lce 调用 specifier 函数 处 理 域 的 说 明 符 ， 然 后 分 析 每 个 域 : 


(parse fields 218)= 218 
int n = 0; 
while (istypename(t, tsym)) { 
static char stop[] = { IF, CHAR, '}', 0}; 
Type tyl = specifier(NULL); 
for (;;) f 
Field p; 
char *id = NULL; 
(parse one field 219) 


n++; 
if (Aflag >= 2 & n == 128 ) 
warning("more than 127 fields in '%t'\n", ty); 
if =i 
break; 
t = gettokQ; 
} 
test(';', stop); 
} 


变量 n 表示 域 的 数目 ， 主 要 用 于 当 声 明 的 域 的 数目 超过 标准 所 允许 的 最 大 数目 时 发 出 警告 ， 该 功 
能 可 以 通过 Ice 的 -A 选项 进行 选择 。 
域 的 分 析 类 似 于 分 析 声 明 中 的 声明 符 ，declr 函数 完成 了 大 部 分 工作 : 


{parse one field 219)= 219 218 
= newfield(id, ty, dclr(ty1, &id, NULL, 0)); 


newfield 函数 分 配 一 个 feld 结 构 ， 使 用 dcir 函数 返回 的 这 值 和 Type 类 型 初始 化 field 结 构 的 
name 域 和 type 域 ， 清 除 其 他 域 ， 并 将 其 添加 到 ty->u.sym->u,s.flist 中 。newfield 从 头 至 尾 访 问 列 
表 以 检查 域名 是 否 重复 。 

接 下 来 如 果 是 冒号 表示 了 当前 域 是 一 个 位 域 ，fields 函数 还 必须 检查 域 的 类 型 ， 分 析 域 的 宽 
度 并 检查 域 宽 的 合法 性 : 


(parse one field219)+= 219 220 218 
if (t == ':') { 
if (unqual(p->type) != inttype 
&& unqual(p->type) != unsignedtype) { 
error("'%t' is an illegal bit-field type\n", 
p->type) ; 
p->type = inttype; 
} 
t = gettokQ; 
p->bitsize = intexpr(0, 0); ; 
if (p->bitsize > 8*inttype->size || p->bitsize < 0) { 
error("'%d' is an illegal bit-field size\n", 
p->bitsize); 
p->bitsize = 8*inttype->size; 
} else if (p->bitsize == 0 && id) { 
warning(“extraneous O-width bit field "%t %s’ _ 
ignored\n", p->type, id); 
p->name = stringd(genlabel(1)); 


} 
p->Isb = 1; 
} 


位 域 必须 是 限定 或 未 限定 的 整 型 或 无 符号 整 型 ， 编 译 器 可 以 将 整数 位 域 当 作 有 符号 或 无 符号 
整数 ，lec 将 其 处 理 为 有 符号 的 。 一 个 未 命名 的 位 域 表 示 填 充 域 ， 它 暂时 被 赋予 唯一 的 整数 作为 


名 字 ， 并 像 其 他 域 一 样 添加 到 列表 中 ,但 是 在 计算 完 偏 移 量 后 ， 它 就 会 从 列表 中 删除 。 类 似 地 ， 
lsb 域 也 暂时 被 置 为 1 以 表示 是 一 个 位 域 ， 在 计算 完 偏 移 量 后 ， 它 就 会 变 为 正确 的 值 。 
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除了 没有 检查 缺少 域名 和 非法 类 型 的 错误 ，newfield 函数 完成 了 有 关 域 的 所 有 工作 : 


(parse one field 218 ) += 219 220 218 
else { 
if Cid == NULL) 
error("field name missing\n"); 
else if Cisfunc(p->type)) 
error("'%t' is an illegal field type\n", p->type); 
else if (p->type->size == 0) 
errorC"undefined size for field '%t %s'\n", 
p->type, id); 
} 


如 果 一 个 域 或 位 域 声明 为 const， 则 禁止 对 该 域 赋值 ， 对 结构 赋值 也 不 允许 。 例 如 ， 对 于 
EX: 
struct { int code; const int value; } x, y; 


x.code 和 y.code 的 值 可 以 改变 ， 但 是 x.value 和 y.value 的 值 是 不 能 改变 的 。 对 于 类 似 x=y 的 赋值 
也 是 非法 的 ，asgntree 函数 中 通过 检查 结构 类 型 的 cfields 标记 来 发 现 这 些 错 误 。cfields 标记 以 及 
记录 可 变 域 的 vfields 标记 都 在 分 析 域 时 设置 : 

{parse one field 218)+= 220 218 

if Cisconst(p->type)) 
ty->u.sym->u.s.cfields = 1; 

if Cisvolatile(p->type)) 
ty->u.sym->u.s.vfields = 1; 

至 此 ， 图 11-1 中 的 例子 的 域 列表 有 9 个 元 素 : FE 218 页 表格 中 列 出 的 8 个 元 素 再 加 上 在 
used 与 amt 之 间 的 一 个 bitsize 等 于 26 Hh. code, used 和 amt 元 素 的 lsb 域 都 等 于 1， 而 所 有 的 
offset 域 都 为 0。 

接 下 来 , field 函数 遍历 域 列 表 计 算 偏 移 量 。 该 函数 同时 计算 结构 的 对 齐 字 节 数 ， 重 建 域 列表 ， 
并 删除 那些 仅 起 填充 作用 的 field 结构 ， 这 些 结构 以 整数 作为 名 字 。 

(assign field offsets 220)= 222 218 

int bits = 0, off = 0, overflow = 0; 
Field p, *q = &ty->u.sym->u.s.flist; 
ty->align = IR->structmetric.align; 
for (p = *q; p; p = p->link) { 
(compute p->offset 221 ) 
if (p->name == NULL 
I] !C'1' <= *p->name && *p->name <= '9')) { 
*q = pi 
q = &p->link; 
} 


} 

*q = NULL; 
off FF p 所 指向 的 域 之 前 的 所 有 域 (不 包含 p 所 指 的 域 ) 占用 的 字 节 数 的 累加 和 。bits 是 p 之 前 
的 位 域 序列 占用 的 超出 o 企 个 字 节 的 位 数 加 1。 这 样 ， 如 果 前 一 个 域 是 一 个 位 域 ， 则 bits IES, 
而 且 它 绝对 不 会 超过 unsignedtype->size 的 值 。fields 函数 必须 能 够 处 理 偏 移 量 计算 时 的 溢出 情况 。 
它 使 用 宏 add 来 实现 对 off 的 增加 : 
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(deci.c macros) = 221 
#define add(x,n) (x > INT_MAX-(n) ? (overflow=1,x) : x+(n)) 
#define chkoverflow(x,n) ((void)add(x,n)) 
如 果 x+n 溢出 ， 宏 chkoverflow 通过 调用 宏 add 来 设置 overflow 标志 。 如 果 在 fields 函数 处 理 结束 
后 overflow 等 于 1， 则 说 明 该 结构 太 大 。 
如 果 域 出 现在 联合 中 ， 则 定义 其 偏 移 量 为 0: 


(compute p->offset 221)= 221 220 
int a = p->type->align ? p->type->align : 1; 
if (p->1sb) 
a = unsignedtype->align; 
if (ty->op == UNION) 
off = bits = 0; 
变量 a 的 值 表示 的 是 域 的 对 齐 字 节 数 。 如 果 有 必要 ， 它 也 可 用 来 增加 结构 的 对 齐 字 节 数 ， 它 还 用 
来 按照 对 齐 边界 要 求 对 off 的 值 进行 向 上 舍 入 : 


(compute p->offset 221)+= AA 221 220 
else if (p->bitsize == 0 || bits == 0 
|| bits - 1 + p->bitsize > 8*unsignedtype->size) { 
off = add(off, bits2bytes(bits-1)); 
bits = 0; 
chkoverflow(off, a - 1); 
off = roundup(off, a); 
} 
if (a > ty->align) 
ty->align = a; 
p->offset = off; 


{decl.c macros) += 221 
#define bits2bytes(n) (((n) + 7)/8) 


WR p 不 是 一 个 位 域 ， 且 它 前 面 的 域 不 在 一 个 无 符号 整数 的 中 间 结 束 ， 或 者 p 是 一 个 位 域 ， 但 是 
又 太 大 ,不 能 放 入 它 之 前 的 位 域 占用 的 剩余 空间 内 ， 那 么 ,off 就 必须 进行 向 上 舍 入 。 在 向 上 舍 入 
之 前 ，o 企 必须 增加 到 超过 前 面 的 位 域 所 占用 的 无 符号 整数 ， 直 到 磁 到 一 个 普通 域 或 者 到 达 链 表 
的 末尾 ， 才 会 计算 这 些 增加 的 部 分 。 变 量 bits 的 值 就 是 该 空间 的 位 数 加 1， 所 以 通过 用 bits-1 BR 
以 8 并 向 上 取 整 就 将 它 转 换 为 字 节 数 。 甚 至 当 bits 为 0 时， 这 种 计算 也 是 正确 的 。 

在 图 11-1 中 ， 当 处 理 s1 RS, off EF 5 且 bits 等 于 0。sl 的 对 齐 数 为 2， 所 以 上 面 的 代码 将 
of 设置 为 6， 这 也 就 是 sl 的 偏 移 量 。 当 处 理 amt 时 ，o 企 等 于 12， 这 就 是 保存 code 和 bits 的 无 符 
号 整数 ，bits 为 3+1+26+1=31。amt 需要 7 位 ， 而 这 不 能 满足 ， 所 以 off 设 置 为 12+((31 -1)+7)/8=16， 
这 正好 符合 由 a 所 指出 的 按 4 字 节 边界 对 齐 的 要 求 ， 位 数 设置 为 0。 接着， 处 理 last kM, off EF 
16 H bits 为 7+1=8。 因 为 last 不 是 一 个 位 域 ，o 企 设置 为 16+((8-1)+7)/8=17, Wea EBARH 20. 

一 旦 计算 并 存储 了 op 的 偏 移 量 ，o 企 就 加 上 p 的 类 型 大 小 (位 域 除外 )。 如 果 p 是 一 个 位 域 ， 
则 汁 算 p->lsb，bits 加 上 位 域 的 宽度 : 

(compute p->offset 22) )+= 21 220 

if (p->Isb) { 


if (bits == 0) 
bits = 1; 
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if CIR->little_endian) 
p->Isb = bits; 
else 
p->lsb = 8*unsignedtype->size - bits + 1 
- p->bitsize + 1; 
bits += p->bitsize; 
} else 
off = add(off, p->type->size); 
if (off + bits2bytes(bits-1) > ty->size) 
ty->size = off + bits2bytes(bits-1); 
bits 等 于 按 地 址 顺序 的 位 偏 移 量 加 1， 但 lsb 不 是 按 地 址 顺序 的 ， 它 是 距 该 位 域 右 端 的 位 数 加 1。 
在 一 个 低位 优先 的 目标 机 上 ，bits 和 lsb 是 相同 的 。 但 是 在 一 个 具有 32 位 无 符号 整数 的 高 位 优先 
的 目标 机 上 ， 例如， 一 个 宽 m 的 位 域 到 右 端的 位 数 是 32-(bits-1)-m, XE bits-1 就 是 它 的 前 一 
位 域 所 占 的 位 数 。 上 面 代码 的 最 后 一 条 语句 更 新 ty->size， 该 代码 无 论 对 结构 还 是 对 联合 都 起 作 
用 ， 因 为 对 于 联合 的 域 已 将 off 设 置 为 0。 对 于 联合 而 言 ， 包 含 由 bits 所 占用 的 空间 是 很 关键 的 ; 
如 果 和 忽略 它 ， 那 么 


union { int x; int a:31, b:4; }; 


的 大 小 是 4 而 不 是 8， 因 为 b 所 占 的 4 位 记录 在 bits 上 ， 将 不 被 计算 。 
处 理 code SINT, off FF 10, bits 为 0。 由 于 位 域 必须 从 一 个 适合 的 无 符号 整数 的 边界 开 
始 ， 所 以 上 面 代码 中 向 上 舍 入 操作 使 o 任 增加 为 12 并 作为 code 的 偏 移 量 。bits 和 code 的 lsb 都 
设 为 1。 如 果 图 11-1 中 的 例子 在 一 个 32 位 高 位 优先 的 目标 机 上 编译 ，code 的 lsb 就 等 于 32- 
1+1-3+1=30; 也 就 是 说 ， 在 一 个 高 位 优先 的 目标 机 上 到 code 的 右 端 有 29 位 。 处 理 到 used HY, off 
仍然 等 于 12， 所 以 它 的 1sb 变 为 4 并 且 bits 变 为 5。 在 used All code 之 间 的 填充 使 得 位 数 增加 为 
5+26=31。 在 为 amt 分 配 的 偏 移 量 为 12 的 无 符号 整数 中 没有 空白 ， 所 以 如 上 所 述 ，off 和 bits 分 
别 变 为 16 和 0，amt 的 lsb 值 变 为 1。 l 
结构 还 可 以 出 现在 数组 中 : 一 个 结构 的 结束 地 址 边界 必须 是 具有 最 严格 的 对 齐 字 节 数 的 域 的 
对 齐 字 节 数 的 整数 倍 ， 这 样 便 可 以 通过 增加 指针 值 ， 使 指针 从 指向 数组 元 素 n 变 为 指向 数组 元 素 
n+1。 例 如 ， 如 果 一 个 结构 含有 一 个 double 类 型 的 域 且 double 的 对 齐 字 节 数 为 8， 则 该 结构 的 对 
齐 字 节 数 也 为 8。 如 上 所 示 ，fields 函数 负责 处 理 结 构 的 对 齐 字 节 数 ，ty->align 等 于 或 大 于 其 域 的 
对 齐 字 节 数 ， 但 是 如 果 需 要 ， 还 必须 填充 该 结构 使 其 为 对 齐 字 节 数 的 整数 倍 : 
(assign field offsets220)+= 20 218 
chkoverflow(ty->size, ty->align - 1); 
ty->size = roundup(ty->size, ty->align); 
if (overflow) { 


error("size of '%t' exceeds %d bytes\n", ty, INT_MAX); 
ty->size = INT_MAX&(~(ty->align - 1)); 


对 于 图 11-1 的 例子 ，<assign field offsets> 中 的 循环 结束 时 ty->size 等 于 26， 最 后 o 企 的 值 并 不 是 
4 (ty->align 的 值 ) 的 倍数 ， 最 后 这 段 代 码 使 得 ty->size 增加 到 了 28。 
11.6 ”函数 定义 


函数 定义 就 是 一 段 没 有 分 号 结束 符 的 声明 ， 后 面 接着 一 些 复合 语句 。 在 旧 风 格 的 函数 定义 
中 ， 还 可 以 插入 一 些 声明 列表 。 


E 223 


function-definition: 
declaration-specifiers declarator { declaration } 
compound-statement 


funcdefn 函数 分 析 函 数 定义 。 当 遇 到 一 个 函数 定义 时 ，decl 函数 就 会 调用 funcdefn。 


{decl.c functions) += 28 224 
static void funcdefn(sclass, id, ty, params, pt) int sclass; 
char *id; Type ty; Symbol params[]; Coordinate pt; { 

int ‘fA: 
Symbol *callee, *caller, p; 
Type rty = freturn(ty); 


(funcdefn 223 ) 


funcdefn 函数 需要 处 理 许多 事情 。 它 必须 分 析 旧 风格 函数 中 可 选 的 声明 ， 使 得 新 风格 的 函数 声明 
与 日 风格 的 函数 定义 相 一 致 ， 并 对 编译 前 端 进行 初始 化 ， 以 分 析 构 成 函数 的 代码 表 的 复合 语句 。 
一 旦 处 理 到 复合 语句 ， 当 编译 后 端 调用 gencode 和 emitcode PALIT, funcdefn 必须 完成 对 代码 表 
的 转换 ， 为 接口 过 程 function 安排 正确 的 参数 ， 在 函数 的 代码 生成 后 还 要 重新 初始 化 编译 前 端 。 

funcdefn 函数 的 参数 sclass、id 和 ty 分 别 给 出 了 存储 类 型 、 函 数 名 和 函数 类 型 (由 decl 函数 
分 析 的 函数 声明 符 得 到 )。pt 是 该 声明 符 开始 的 源 代码 位 置 ，params 是 由 parameters 函数 构建 的 
符号 数组 一 一 每 个 参数 对 应 一 个 符号 ， 如 果 参 数列 表 以 一 个 省 略 号 结束 ， 则 还 有 一 个 未 命名 的 符 
号 。 因 为 该 未 命名 符号 仅 用 于 函数 原型 中 ，funcdefn 函数 开始 时 会 排除 这 个 额外 的 未 命名 符号 ， 
funcdefn 函数 还 检查 非法 返回 类 型 : 


(funcdefn 223)= 223 223 
if Cisstruct(rty) & rty->size == 0) 
error("illegal use of incomplete type '%t'\n", rty); 
for (n = 0; params[n]; n++) 


if a > 0 && params[n-1]->name == NULL) 
params[--n] = NULL; 
params 数组 帮助 funcdefn 函数 构建 两 个 类 似 的 指向 符号 表 入 口 的 指针 数组 。callee 是 函数 自身 可 
见 的 参数 入 口 数组 ， 而 caller 是 函数 调用 者 可 见 的 参数 入 口 数 组 。 通 常 ， 这 两 个 数组 中 相应 的 人 
口 是 相 同 的 ， 但 当 因为 参数 提升 使 得 调用 者 的 参数 类 型 与 被 调用 郴 数 的 参数 类 型 不 同时 ， 它 们 也 
会 不 同 ， 参 见 1.3 节 。 调 用 者 和 被 调用 者 的 参数 的 存储 类 型 也 可 能 不 相同 ， 例 如 ， 被 调用 函数 的 
某 个 参数 声明 为 register 存储 类 型 ， 但 是 调用 者 却 通过 栈 来 传递 该 参数 。 构 建 callee 和 caller 的 详 
细 情 况 还 取决 于 函数 定义 是 旧 风 格 还 是 新 风格 的 : 
(funcdefn 223) += 2B 26 223 
if (ty->u.f.oldstyle) { 
(initialize old-style parameters 224) 


} else { 
(initialize new-style parameters 224) 


} 
for Ci = 0; (p = callee[i]) != NULL; i++) 
if (p->type->size == 0) { 
error("undefined size for parameter '%t %s'\n", 
p->type, p->name); 
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caller[i]->type = p->type = inttype; 
} 
与 旧 风 格 的 函数 定义 相 比 ， 新 风格 的 函数 定义 容易 处 理 一 些 。 由 于 parameters 函数 已 经 做 了 
大 部 分 的 处 理工 作 ， 所 以 params 可 以 直接 用 作 callee。 调 用 者 的 参数 一 般 是 相应 的 被 调用 者 参数 
的 副本 ， 但 是 它们 的 类 型 可 以 被 提升 ， 它 们 的 存储 类 型 可 以 是 AUTO 以 表明 它们 是 通过 内 存 传 
BAY. 
(initialize new-style parameters 224)= 223 
callee = params; 
caller = newarray(n + 1, sizeof *caller, FUNC); 
for (i = 0; (p = callee[i]) != NULL && p->name; i++) { 
NEW(caller[i], FUNC); 
*caller[i] = *p; 
caller[i]->type = promote(p->type); 
caller[i]->sclass = AUTO; 
if ('l' <= *p->name && *p->name <= '9') 
error("missing name for parameter %d to _ 
function '%s*\n", i + 1, id); 


} 
caller[i] = NULL; 


parameters 函数 使 用 参数 编号 来 表示 参数 中 省 略 的 标识 符 ， 所 以 funcdefn 函数 必须 检查 这 类 标识 
符 。 在 声明 中 标识 符 可 以 省 略 ， 但 是 在 函数 定义 中 不 允许 省 略 标识 符 。 

对 于 旧 风 格 的 函数 定义 ，parameters 简单 收集 了 参数 列表 中 的 标识 符 并 且 检 查 了 副本 。 
funcdefn 函数 必须 分 析 它 们 的 声明 符 ， 并 把 结果 的 标识 符 与 params 中 的 标识 符 进 行 匹 配 。 
funcdefn 函数 直接 将 params 用 作 caller， 并 复制 一 个 作为 callee， 然 后 调用 decl 函数 来 分 析 这 些 
声明 。 

(initialize old-style parameters 224)= 224 223 

caller = params; 

callee = newarray(n + 1, sizeof *callee, FUNC); 

memcpy(callee, caller, (n+1)*sizeof *callee); 

enterscope(); 

while (kind[t] == STATIC || istypename(t, tsym)) 
dec1 (dclparam) ; 

对 参数 声明 的 分 析 将 为 每 一 个 标识 符 在 identifiers 表 中 增加 一 个 符号 表 入 口 。 这 些 声明 可 能 
忽略 整数 参数 ， 也 可 能 声明 不 在 callee 中 的 标识 符 。funcdefn 函数 通过 访问 每 一 个 具有 PARAM 
作用 域 的 符号 来 检查 第 二 种 情况 ， 并 将 callee 指向 那个 符号 : 


(initialize old-style parameters 224) += 224225 223 
foreach(identifiers, PARAM, oldparam, callee); 


(decl.c functions) += 3 229 
static void oldparam(p, cl) Symbol p; void *cl; { 
int i; 


Symbol *callee = cl; 


for (i = 0; callee[i]; i++) 
if (p->name == callee[i]->name) { 
callee[i] = p; à 
return; 


} 
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error("declared parameter '%s' is missing\n", p->name); 


处 理 完 旧 风 格 的 声明 后 ，callee 中 的 一 些 入 口 就 指向 了 真实 的 参数 符号 ， 其 他 的 则 指向 
param-eters 函数 创建 的 占 位 符号 。 对 于 defined 标志 等 于 0 的 符号 ， 如 果 它 们 显 式 地 声明 为 整数 ， 
则 它们 此 时 会 初始 化 。 同 时 ， 相 应 的 caller 符号 被 identifiers 中 的 真实 符号 覆盖 。 


(initialize old-style parameters 224) += a 225 223 
for (i = 0; (p = callee[i]) != NULL; i++) { 
if (lp->defined) 
callee[i] = dclparam(0, p->name, inttype, &p->src); 
*caller[i] = *p; 
caller[iJ->sclass = AUTO; 
if Cunqual(p->type) == floattype) 
caller[i]->type = doubletype; 
else 
caller[i]->type = promote(p->type) ; 
} 


调用 旧 风 格 函 数 时 会 遇 到 默认 参数 的 困扰 ， 所 以 caller 函数 中 的 参数 类 型 做 了 相应 的 改变 。 
例如 : 在 


fic char ep float: X arera} 


中 ，callee 的 两 个 参数 的 类 型 分 别 是 CHAR Ail FLOAT, 但 caller 的 参数 类 型 是 INT Fil DOUBLE, 
如 1.3 节 所 示 ， 这 种 差异 导致 在 函数 f 的 入 口 处 调用 者 的 参数 值 需要 赋值 给 被 调用 函数 的 参数 。 

标准 C 允许 混合 使 用 旧 风 格 的 定义 和 新 风格 的 声明 ， 本 书 的 代码 反映 了 这 一 点 ， 但 是 函数 定 
义 必 须 与 声明 相 一 致 ， 反 之 亦 然 。 如 果 一 个 新 风格 的 函数 声明 后 接着 一 个 旧 风 格 的 函数 定义 ， 则 
该 函数 就 会 被 认为 是 一 个 新 风格 的 函数 ， 并 且 旧 风格 的 函数 定义 所 提供 的 参数 列表 的 类 型 必须 与 
函数 声明 一 致 。 


(initialize old-style parameters 224) += 225 226 223 
p = lookupCid, identifiers); 
if (p && p->scope == GLOBAL && isfunc(p->type) 
&& p->type->u.f.proto) { 
Type *proto = p->type->u.f.proto; 
for (i = 0; caller[i] && proto[i); i++) 
if Ceqtype(unqual(proto[i]), 
unqual(caller[i]->type), 1) == 0) 
break; 
if (proto[i] || catler[i]) 
error("conflicting argument declarations for _ 
function "%s'\n", id); 
} 


由 于 没有 兼容 的 旧 风 格 函数 定义 ， 所 以 新 风格 的 声明 不 能 以 “,…:” 结束 。 上 面 的 代码 用 来 检 
查 caller 的 类 型 是 否 与 相应 的 新 风格 声明 兼容 。 这 样 ， 与 上 面 的 f 函数 唯一 兼容 的 声明 是 : 


extern int fCint, double); 
声明 


extern int f(char, float); 
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的 参数 类 型 与 上 面 定义 的 于 函数 的 参数 c 和 X 相 同 ， 因 此 看 上 去 二 者 兼容 。 但 是 ， 出 于 兼容 的 考 


虑 ， 参 数 应 当 是 提升 后 的 类 型 。 


如 果 一 个 新 风格 的 函数 声明 跟 在 一 个 旧 风 格 的 函数 定义 的 后 面 ， 则 该 函数 依然 是 一 个 旧 风 
格 函数 ， 但 是 如 上 所 示 ， 声 明 必 须 是 兼容 的 。 为 了 实现 这 种 检查 ，lce 对 旧 风格 函数 构建 一 个 原 
型 ， 并 通过 包含 该 原型 来 改变 函数 的 类 型 。 该 函数 类 型 的 oldstyle 标记 等 于 1， 所 以 这 种 原型 仅 


被 eqtype 用 来 进行 这 样 的 检查 。 
(initialize old-style parameters 224) += 25 223 
else { 


Type *proto = newarray(n + 1, sizeof *proto, PERM); 
if (Aflag >= 1) 
warning("missing prototype for ‘%s'\n", id); 
for Ci = 0; i < n; i++) 
proto{i] = caller{i]->type; 
proto[i] = NULL; 
ty = func(rty, proto, 1); 
} 


接 下 来 出 现 新 风格 函数 声明 时 ， 重 声明 代码 将 调用 eqtype 函数 ， 并 用 该 原型 检查 兼容 性 。 


— E caller 和 callee 构建 好 后 ，funcdefn 函数 就 会 为 函数 本 身 定义 符号 ， 因 为 其 他 函数 ， 


如 statement 函数 和 retcode 函数 ， 需 要 访问 当前 函数 。 设 该 符号 为 全 局 变量 : 


(decl.c exported data)= 227 
extern Symbol cfunc; * 


函数 的 其 他 信息 存放 在 符号 的 uf 域 : 


(function symbols 226) = 28 
struct { 
Coordinate pt; 
int label; 
int ncalts; 
Symbol *callee; 
ts 


比 


pt 表示 的 是 函数 人 口 点 的 源 代 码 位 置 ，label 表示 退出 点 的 标号 ，ncalls 表示 函数 中 出 现 的 函数 调 


用 的 次 数 ，callee 域 是 函数 funcdefn 的 局 部 变量 callee 的 副本 。 


(funcdefn 223) 十 三 223 227 223 
p = lookupCid, identifiers); 
if (p & isfunc(p->type) && p->defined) 
error("redefinition of '%s' previously defined at %w\n", 
p->name, &p->src); 
cfunc = dcliglobal(sclass, id, ty, &pt); 
cfunc->u.f.label = genlabel(1); 
cfunc->u.f.callee = callee; 
cfunc->u.f.pt = src; 
cfunc->defined = 1; 
if (xref) 
`  use(cfunc, cfunc->sre); 
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此 时 ，funcdefn 函数 为 最 后 处 理 函 数 体 做 好 了 准备 。 它 为 内 部 标号 和 语句 标号 初始 化 符号 表 ， 把 
refinc 初始 化 为 1， 将 code 列表 设 为 唯一 的 Stat 人 口 ， 为 函数 的 人 口 点 添加 一 个 执行 点 ， 并 调用 
compound 函数 。compound 函数 将 在 下 一 节 中 介绍 。 
(funcdefn 223) += 226 227 223 

labels = table(NULL, LABELS); 

stmtlabs = table(NULL, LABELS); 

refinc = 1.0; 

regcount = 0; 

codelist = &codehead; 

codelist->next = NULL; 

definept (NULL); 

if (!IR->wants_callb && isstruct(rty)) 

retv = genident(AUTO, ptr(rty), PARAM); 
compound(0, NULL, 0); 


(decl.c data)= 229 
static int regcount; 


(decl.c exported data)+= 6 
extern Symbol retv; 

regcount 是 显 式 声明 为 register 的 局 部 变量 的 个 数 。 正 如 10.8 TEARRE, WRR py wants 
callb 等 于 0， 则 编译 前 端 就 完全 实现 返回 结构 的 函数 。 这 样 就 创建 了 一 个 指向 存储 返回 值 地 址 的 
隐 式 参数 ， 并 通过 retv 为 该 参数 传递 符号 。 它 也 会 在 调用 时 传递 该 参数 的 值 ， 参 见 9.3 节 。 

随 着 复合 语句 的 分 析 ， 代 码 表 不 断 增长 。 当 compound 函数 返回 时 ， 如 果 有 必要 ，funcdefn 
函数 会 为 返回 语句 在 代码 表 中 增加 一 棵 树 。 该 代码 类 似 于 增加 了 一 个 跳 转 : 只 有 当 程 序 控制 能 够 
执行 到 函数 尾 时 ， 该 返回 语句 才 是 必要 的 。 


(funcdefn 223) += 21 228 223 


Code cp; 
for (cp = codelist; cp->kind < Label; cp = cp->prev) 


if (cp->kind != Jump) { 
if (rty != voidtype 
&& (rty != inttype |] Aflag >= 1)) 
warning("missing return value\n"); 
retcode(NULL); 
} 


} 
definelab(cfunc->u.f. label); 
definept(NULL); 


对 definelab 函数 的 调用 将 增加 一 个 退出 点 标号 ， 而 definept 函数 则 增加 一 个 相应 的 执行 点 。lcc 
编译 器 对 于 以 下 两 种 情况 给 出 警告 信息 : 一 种 是 返回 类 型 为 非 整数 的 函数 采取 了 隐 式 返回 方式 ， 
另 一 种 是 具有 -A 选项 而 非 void 类 型 的 函数 采取 了 隐 式 返回 方式 。 函 数 分 析 的 最 后 一 步 就 是 关闭 
compound 函数 所 打开 的 作用 域 并 检查 未 引用 的 参数 : 
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(funcdefn 223) += 227 228 223 
exitscope(); 
foreach(identifiers, level, checkref, NULL); 
checkref 函数 将 在 下 一 节 中 详细 介绍 。 
现在 函数 的 代码 表 已 经 构造 完成 (除了 在 gencode 函数 中 进行 必要 的 转变 )，funcdefn 函数 已 
准备 调用 接口 过 程 function。 但 是 在 调用 之 前 ， 必 须根 据 接口 标志 wants_callb 和 wants_argb 的 
值 ， 对 caller 和 callee 进行 两 种 不 同 的 变换 。 如 果 wants_callb FF 0， 则 通过 rety 指针 指向 的 隐 
含 参 数 必须 插入 callee 的 开始 ， 其 副本 也 必须 插 到 caller 的 开始 : 


(funcdefn 223 )+= 228 228 223 
if (!IR->wants_callb && isstruct(rty)) { 
Symbol *a; 


a = newarray(n + 2, sizeof *a, FUNC); 

a[0] = retv; 

memcpy(&a[1], callee, (n+1)*sizeof *callee); 
callee = a; 

a = newarray(n + 2, sizeof *a, FUNC); 
NEW(a[0], FUNC); 

*a(0] = *retv; 

memcpy(&a[1], caller, (n+1)*sizeof *callee); 
caller = a; 


} 
如 果 wants argh 等 于 0， 编 译 前 端 将 完全 实现 结构 参数 ， 参 见 8.8 节 和 9.3 节 。 例 如 ， 当 wants_ 
argb 等 于 0 时 ，idtree 函数 对 于 结构 参数 另外 生成 一 个 间接 地 址 ， 因 为 参数 是 该 结构 的 真正 地 址 。 
但 是 这 种 错误 在 编译 后 端 必须 修正 ， 编 译 后 端 通过 改变 caller 和 callee 的 参数 类 型 并 且 设 置 一 个 
structarg 变量 来 标识 这 种 标识 符 进行 这 样 的 修正 。 


(symbol flags 37)+= 163 28 
unsigned structarg:1; 


(funcdefn 223) += 228 228 223 
if (!IR->wants_argb) 
for (i = 0; caller[i]; i++) 
if Cisstruct(caller[i]->type)) { 
caller[i]->type = ptr(caller[i]->type); 
callee[iJ->type = ptr(callee[i]->type); 
caller{iJ->structarg = callee{i]->structarg = 1; 


} 
最 后 ， 如 果 有 必要 ，funcdefn 就 输出 函数 并 将 控制 权 交 给 编译 后 端 : 
(funcdefn223)+= 次 229 223 
if (cfunc->sclass != STATIC) 
C*IR->export)(cfunc); 

swtoseg (CODE) ; 

(*IR->function)(cfunc, caller, callee, cfunc->u.f.ncalls); 
funcdefn 函数 结束 时 输出 结果 ， 对 未 定义 的 语句 标号 进行 检查 ， 有 选择 地 生成 一 个 函数 结束 的 事 
FAF, RAJ PARAM 作用 域 ， 并 读 入 函数 复合 语句 的 结束 括号 。 
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(funcdefn 223)+= 228 223 
outflush(); 
foreach(stmtlabs, LABELS, checklab, NULL); 
exitscope(); 
expect('}"); 


checklab 类 似 于 checkref， 参 见 练习 11.4。 


11.7 ”复合 语句 
复合 语句 的 语法 如 下 : 


compound-statement: 
"{’ { declaration } { statement } '}' 
compound 是 复合 语句 的 分 析 函 数 。 它 添加 一 个 Blockbeg 入 口 到 代码 表 中 ， 然 后 打开 一 个 新 的 作 
用 域 ， 分析 可 选 的 声明 和 语句 ， 然 后 添加 一 个 Blockend 入 口 地 址 到 代码 表 中 。compound 函数 的 
ERA TM A. switch 句柄 和 结构 化 语句 的 检 套 层 数 。 
(decl.c functions)+= 234 231 
void compound(loop, swp, lev) 
int loop, lev; struct swtch *swp; { 
Code cp; 
int nregs; 
walk(NULL, 0, 0); 
cp = code(Blockbeg) ; 
enterscope(); 
(compound 230 ) 
cp->u.block. level = level; 
cp->u.block. identifiers = identifiers; 
cp->u.block.types = types; 
code(Blockend)->u.begin = cp; 
if (level > LOCAL) { 
exitscope(); 
expect('}'); 


} 


compound 函数 会 在 statement 函数 和 funcdefn 函数 中 调用 。 两 种 调用 唯一 的 不 同 之 处 在 于 : 源 于 
statement 函数 的 调用 需要 compound 关闭 作用 域 。 如 上 节 所 示 ，funcdefin 函数 会 关闭 compound 
函数 打开 的 作用 域 ， 这 样 funcdefn 就 可 以 在 关闭 作用 域 之 前 调用 接口 过 程 function. 

compound 函数 中 的 语义 处 理 大 多 涉及 在 语句 块 中 声明 的 局 部 变量 。dcllocal 函数 处 理 每 一 个 
局 部 变量 并 根据 它 的 : 显 式 存储 类 型 将 它 添加 到 下 面 的 一 个 列表 中 : 

(decl.c data) += 

static List autos, registers; 
没有 存储 类 型 的 局 部 变量 添加 到 autos 列表 中 ， 而 静态 局 部 变量 的 处 理 与 全 局 变量 类 似 。 

如 果 compound 函数 是 被 funcdefn 函数 调用 的 ， 则 它 必 须 处 理 接口 标志 wants_callb。 当 此 标 
志 为 1 时， 编译 后 端 就 会 处 理 返回 结构 的 函数 其 返回 值 的 传递 。 编 译 前 端 在 调用 方 为 该 返回 值 建 
立 存储 空间 ， 但 它 不 知道 如 何 将 该 存储 空间 的 地 址 传递 给 被 调用 函数 。 它 假定 编译 后 端 会 以 一 种 
与 目标 机 器 相关 的 方式 传递 该 地 址 ， 并 将 它 存储 在 第 一 个 局 部 变量 中 。 所 以 ，compound 函数 将 
生成 第 一 个 局 部 变量 ， 并 在 retv 中 保存 该 变量 的 符号 表 入 口 : 


a 
227 


230 HUF 


(compound 230) = 230 229 
autos = registers = NULL; 
if (level == LOCAL && IR->wants_callb 
&& isstruct(freturn(cfunc->type))) { 
retv = genident(AUTO, ptr(freturn(cfunc->type)), level); 
retv->defined = 1; 
retv->ref = 1; 
registers = append(retv, registers); 
} 


即使 retv 为 AUTO 类 型 它 也 会 添加 到 registers 列表 中 ， 以 确保 它 作为 第 一 个 局 部 变量 传递 到 编译 
后 端 。 
编译 前 端 根据 wants_callb 的 值 选择 两 种 方式 之 一 使 用 retv。 当 wants_callb 为 1 时 ，retv 就 保 
存 返回 值 地 址 的 局 部 变量 在 符号 表 中 的 和 人口 。 当 wants_callb 为 0 时， 就 没有 这 种 局 部 变量 ,， 编 
译 前 端 会 把 该 地 址 作为 隐 含 的 第 一 个 参数 的 值 来 传递 ， 这 时 ，retv 就 是 该 参数 的 符号 表 入 口 地 
址 。 至 于 涉及 retcode 时 ，retv 就 是 存放 该 地 址 的 变量 在 符号 表 中 的 人 人口， 无须 关 心 它 是 如 何 得 
到 的 。 
接 下 来 ，compound 函数 分 析 可 选 块 层次 中 的 声明 : 
(compound 230) += 20 230 229 
expect('{'); 
while (kind[t] == CHAR || kind[t] == STATIC 


|| istypename(t, tsym) && getchr() != ':') 
dec] (dcl local); 
compound 调用 getchr 函数 来 检查 一 些 很 少 使 用 但 是 合法 的 代码 ， 例 如 : 
typedef int T; 
YT Sot gore Ts 
Æ istypename(t) 为 真 ， 则 工 是 一 个 类 型 定义 。 但 是 在 函数 f 中 ,，T 是 一 个 标号 。 通 过 查询 下 一 个 
输入 符号 ， 可 以 避免 解释 错误 。 
局 部 变量 分 析 完 后 ，autos 列表 中 的 那些 局 部 变量 就 会 添加 到 registers 列表 中 ， 然 后 它们 就 
转换 为 以 空 值 结尾 的 数组 ， 并 被 赋 给 Blockbeg 所 指 的 代码 表 入 口 的 u.block.locals 域 。 
(compound 230) += Âo 231 229 
i! 
int TE 
Symbol *a = Itov(&autos, STMT); 
nregs = length(registers); 
for (i = 0; a[i]; i++) 
registers = append(a[i], registers); 
cp->u.block. locals = Itov(&registers, FUNC); 
} 
ep->u.block.locals [0..nregs-1] 是 寄存 器 局 部 变量 ， 而 自动 局 部 变量 从 cp->u.block.locals[nregs] FF 
始 。 这 种 存放 顺序 确保 寄存 器 局 部 变量 在 自动 局 部 变量 之 前 通知 了 编译 后 端 。 
接 下 来 compound 处 理 语句 : 
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{compound 230)+= Bo 231 229 
while (kind[t] == IF || kind[{t] == ID) 
statement(loop, swp, lev); 
walk(NULL, 0, 0); 


foreach(identifiers, level, checkref, NULL); 


编译 语句 时 ，idtree 函数 就 增加 语句 所 使 用 的 标识 符 的 ref 域 。 这 样 ， 在 语句 编译 结束 时 ，ref bh 
指明 了 最 常 被 访问 的 变量 。 下 面 描述 的 checkref 函数 将 引用 次 数 超过 3 次 的 变量 的 存储 类 型 改 为 
REGISTER， 除 非 其 地 址 被 使 用 。compound 函数 从 cp->u.block.locals[nregs] 开始 按 ref 值 降序 排 
列 这 些 局 部 变量 。 


(compound 230 ) 十 三 Bi 22 
{ 
int i = nregs, j; 
Symbol p; 
for ( ; (p = cp->u.block.locals[i]) != NULL; i++) { 
for (j = i; j > nregs 
&& cp->u.block.locals[j-1]->ref < p->ref; j--) 
cp->u.block.locals(j] = cp->u.block.locals({j-1]; 
cp~>u.block.locals{j] = p; 
$ 
} 


现在 ， 这 些 局 部 变量 中 的 一 部 分 具有 REGISTER 存储 类 型 ， 由 于 这 些 变量 按照 估算 的 使 用 频率 
排序 ， 编 译 后 端 可 以 直接 为 它们 分 配 寄存 器 而 无 须 再 做 分 析 。 在 cp->u.block.locals [0..nregs 一 1] 
中 的 局 部 变量 被 引用 的 次 数 可 能 会 比 其 他 变量 少 ， 但 是 由 于 程序 已 明确 声明 它们 为 寄存 器 变量 ， 
所 以 它们 最 先 提交 给 编译 后 端 。 
在 复合 语句 结束 时 ， 对 于 identifiers 表 中 的 每 一 个 符号 ，compound 都 会 调用 checkref 函数 ， 
checkref 函数 所 要 做 的 不 只 是 改变 存储 类 型 ， 
(decl.c functions) += 229 232 
static void checkref(p, cl) Symbol p; void *cl; { 
(checkref 231) 
} 
checkref 还 要 设置 可 变 的 局 部 变量 和 参数 的 addressed 标记 ， 以 防止 它们 被 放置 到 寄存 器 变量 
表 中 : 
(checkref 231)= 231 231 
if (p->scope >= PARAM 
&& Cisvolatile(p->type) || isfunc(p->type))) 
p->addressed = 1; 
当 lce 的 -A 选项 出 现 两 次 时 ，checkfef 函数 就 会 对 未 引用 的 静态 变量 、 参 数 以 及 局 部 变量 给 出 警 
告 信息 : i 
(checkref 231) += Bi 232 23I 
if (Aflag >= 2 && p->defined && p->ref == 0) { 
if (p->sclass == STATIC) 
warning("static '%t %s' is not referenced\n", 
p->type, p->name); 
else if (p->scope == PARAM) 
warning("parameter '%t %s' is not referenced\n", 
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p->type, p->name); 
else if (p->scope >= LOCAL && p->sclass != EXTERN) 
warning("local '%t %s' is not referenced\n", 
p->type, p->name); 
} 
除了 上 面 所 提 到 的 情况 外 ， 还 有 许多 参数 或 者 局 部 变量 的 存储 类 型 需要 从 AUTO 变 为 REGISTER. 
仅 当 没 有 被 明确 声明 为 寄存 器 变量 时 ， 参 数 的 存储 类 型 才 会 改变 。 否 则 的 话 ， 有 可 能 把 寄存 器 分 配 
给 参数 ， 而 不 是 想 要 分 给 的 局 部 变量 。 
(checkref 231)+= Hi 232 231 
if (p->sclass == AUTO 
&& (p->scope == PARAM && regcount == 0 
- || p->scope >= LOCAL) 
&& !p->addressed && isscalar(p->type) && p->ref >= 3.0) 
p->sclass = REGISTER; 


在 任何 块 中 明确 声明 为 寄存 器 类 型 的 局 部 变量 都 会 使 dcllocal 函数 增加 regcount 的 值 。 
checkref 函数 还 帮助 管理 externals 表 。 如 下 所 示 ，dcllocal 函数 将 那些 声明 为 externals 的 局 
部 变量 安装 到 externals 和 identifiers 中 。 当 局 部 变量 超出 了 作用 域 范围 时 ，checkref 函数 就 会 把 
identifiers 符号 中 ref 域 的 值 加 到 它 的 externals 符号 的 ref 域 : 
(checkref 231)+= Aa 232 231 
if (p->scope >= LOCAL & p->sclass == EXTERN) { 
Symbol q = lookup(p->name, externals); 
q->ref += p->ref; 


} 
这 样 ，externals 表 中 标识 符 的 ref 值 就 汇总 了 所 有 函数 中 对 该 标识 符 的 引用 。 
最 后 ， 在 编译 结束 时 ，finalize 函数 调用 checkref 查看 当前 作用 域 层 数 ， 以 检查 未 定义 的 静态 
变量 和 函数 。 


(checkref 231)+= ee 23) 
if (level == GLOBAL && p->sclass == STATIC && !p->defined 


&& isfunc(p->type) && p->ref) 
error(“undefined static '%t %s'\n", p->type, p->name); 
lce Xf ABBE Fs BAA MARE AAR S| AS PBN St. Abe C 并 没有 规定 这 种 声明 是 
错误 的 。 
当 compound 为 每 个 局 部 变量 调用 decl 函数 时 ，decl 函数 调用 最 后 一 个 delX 函数 一 一 
dcllocal 函数 。 
(decl.c functions) += Bi 236 
static Symbol dcllocal(sclass, id, ty, pos) = 


int sclass; char *id; Type ty; Coordinate *pos; { 
Symbol p, q; 


(dcllocal 233) 
return p; 


} 
与 delglobal 和 dclparam 函数 类 似 ，dcllocal 函数 开始 先 检查 无 效 的 存储 类 型 : 
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(dcl local 233)= 233 232 
if (sclass == 0) 
sclass = isfunc(ty) ? EXTERN : AUTO; 
else if Cisfunc(ty) && sclass != EXTERN) { 
errorC"invalid storage class '%k' for '%t %s'\n", 
sclass, ty, id); 
sclass = EXTERN; 
} else if (sclass == REGISTER 
&& Cisvolatile(ty) || isstruct(ty) || isarray(ty))) { 
warning("register declaration ignored for '%t %s'\n", 
ty, id); 
sclass = AUTO; 
} 


局 部 变量 可 以 具有 任何 存储 类 型 ， 但 函数 一 定 没 有 存储 类 型 或 者 是 extern。 可 变局 部 变量 和 
那些 具有 聚合 类 型 的 局 部 变量 可 以 声明 为 寄存 器 类 型 的 ,但 是 lcc 将 它们 看 作 自 动 类 型 的 。 
接 下 来 ，dcllocal 函数 对 重复 声明 进行 检查 : 


(dcllocal 233)+= 233 232 
q = lookup(id, identifiers); 
if (q && q->scope >= level 
|) q && q->scope == PARAM && level == LOCAL) 
if (sclass == EXTERN && q->sclass == EXTERN 
&& eqtype(q->type, ty, 1)) 
ty = compose(ty, q->type); 
else 
error("redeclaration of '%s‘ previously _ 
declared at %w\n", g->name, &q->src); 


对 于 参数 和 函数 复合 语句 中 的 局 部 变量 ，lce 使 用 不 同 的 作用 域 ， 但 是 标准 C 将 它们 的 作用 域 看 
成 是 一 个 。 这 样 ， 如 果 在 同一 作用 域 中 已 经 有 一 个 标识 符 或 者 参数 具有 相同 的 名 字 ， 再 声明 一 个 
作用 域 为 LOCAL 的 同名 局 部 变量 ， 该 局 部 变量 的 声明 就 是 重复 声明 。 代 码 : 


f() { extern int x{J; extern int x[10]; ... } 


说 明了 对 于 一 个 局 部 变量 允许 多 次 声明 的 情况 ， 即 当 它 们 声明 为 extem 时 。 这 里 ， 第 二 个 extern 
声明 给 出 了 x 的 更 多 信息 ， 即 它 的 大 小 。 
PE FÆ dellocal 函数 安装 标识 符 ， 初 始 化 它 的 域 ， 并 根据 它 的 存储 类 型 进行 不 同 的 处 理 。 


(dc11ocal 233)+= 233 235 232 
p = install(id, &identifiers, level, FUNC); 
p->type = ty; 
p->sclass = sclass; 
p->src = *pos; 
switch (sclass) { 
case EXTERN: (extern local 234) break; 
case STATIC: (static local 234) break; 
case REGISTER: (register local 234) break; 
case AUTO: (auto Jocal 234) break; 

} 
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自动 的 和 寄存 器 局 部 变量 比较 简单 ， 它 们 只 是 简单 地 添加 到 相应 的 列表 中 : 


(register local 234)= 233 
registers = append(p, registers); 
regcount++ ; 
p->defined = 1; 


(auto local 234)= i 233 
autos = append(p, autos); 
p->defined = 1; 


regcount 是 在 函数 的 任何 地 方 显 式 声 明 为 寄存 器 类 型 的 局 部 变量 的 数目 ， 在 上 面 的 checkref 函数 
中 使 用 。 与 全 局 变量 不 同 的 是 ， 局 部 变量 在 gencode 函数 中 传 到 编译 后 端 之 前 ， 即 在 它 声明 时 ， 
其 defined 标志 被 设置 了 。 局 部 变量 以 这 种 方式 处 理 是 因为 它们 在 给 定 的 作用 域 中 只 能 声明 一 次 ， 
而 且 它 们 的 声明 也 就 是 定义 。 

处 理 静 态 局 部 变量 的 大 部 分 工作 就 是 进行 可 选 的 初始 化 ， 这 与 initglobal 函数 中 处 理 全 局 变 
量 是 相同 的 : 


(static local 234)= 233 
(*IR->defsymbo1) (p); 
initglobal(p, 0); 
if (!p->defined) 
if (p->type->size > 0) { 
defglobal(p, BSS); 
(*IR->space) (p->type->size) ; 
} else 
error(“undefined size for '%t %s‘\n", 
p->type, p->name); 
p->defined = 1; 


如 果 没 有 初始 化 ， 当 initglobal 函数 返回 时 ，p->defined 的 值 就 等 于 0, dellocal 函数 必须 为 静态 局 
部 变量 分 配 存储 空间 。 与 没有 初始 化 的 全 局 变量 一 样 ， 未 初始 化 的 静态 变量 在 BSS 段 中 定义 。 
声明 为 extern 类 型 的 局 部 变量 要 受到 第 204 页 表 中 EXTERN 一 栏 所 总 结 的 规则 的 约束 : 如 
果 一 个 标识 符 在 文件 作用 域 中 有 一 个 可 见 的 声明 ， 那 么 局 部 变量 就 引用 该 声明 。 因 为 除了 作用 域 
不 同 外 ， 局 部 变量 与 全 局 变量 没有 区 别 。 所 以 任何 时 候 ， 局 部 变量 都 是 通过 接口 函数 defsymbol 
来 通知 的 。 
(extern local] 234) 三 235 233 
if (q && q->scope == GLOBAL && q->sclass == STATIC) { 
p->sclass = STATIC; 
p->scope = GLOBAL; 
(*IR->defsymbol) (p) ; 
p->sclass = EXTERN; 
p->scope = level; 
} else 
(*IR->defsymbol) (p); 
正如 该 代码 所 示 ， 相 同名 字 的 静态 说 明 符 若 存在 一 个 可 见 的 文件 作用 域 声 明 ， 则 需要 进行 特殊 处 
理 。 编 译 后 端的 defsymbol 函数 会 对 statics 和 externs 进行 不 同 的 处 理 ， 例 如 ， 对 其 与 目标 相关 的 
名 字 进 行 不 同 的 变换 。 所 以 ， 在 defsymbol 函数 调用 期 间 ，dcllocal 郴 数 会 改变 存储 类 型 和 作用 
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域 。 这 段 代 码 并 没有 对 两 个 标识 符 的 类 型 兼容 性 进行 检查 ， 这 种 检查 会 在 下 面 进行 s 
如 11.2 节 所 述 ， 外 部 局 部 变量 也 要 安装 到 externals 表 中 ， 用 来 对 代码 块 层次 中 extern 声明 
的 一 致 性 进行 检查 。 
{extern local 234) 十 三 234 © 233 
{ 


Symbol r = lookup(id, externals); 
if (r == NULL) { 
r = install(p->name, &externals, GLOBAL, PERM); 
r->src = p->src; 
r->type = p->type; 
r->sclass = p->sclass; 
q = lookup(id, globals); 
if (q && q->sclass != TYPEDEF && q->sclass != ENUM) 
F =.q, 


} 
if (r && !eqtype(r->type, p->type, 1)) 
warning("declaration of '%s' does not match previous _ 
declaration at %w\n", r->name, &r->src); 


} 

如 果 在 externals 表 中 已 经 存在 该 标识 符 的 符号 ， 则 它 必须 具有 兼容 的 类 型 。 否 则 ， 该 标识 符 
就 安装 到 externals 表 中 。 在 第 233 页 dcllocal 函数 对 重复 声明 的 检查 代码 中 ， 有 一 种 复杂 的 情况 
没有 涉及 。 例 如 ， 在 下 面 的 代码 中 : 

int x; 

flint x) { ... { extern float x; ... } } 

f 函数 中 对 x 的 外 部 声明 与 x 的 文件 作用 域 中 的 声明 相 冲 突 ， 因 为 它们 对 相同 的 x 规 定 了 不 同 的 
类 型 。 在 重复 声明 检查 代码 中 对 lookup 函数 的 调用 会 返回 一 个 指向 参数 x 符号 的 指针 ， 并 将 该 
指针 赋值 给 q， 在 <extern local> 的 开始 正 是 使 用 该 值 对 文件 作用 域 的 标识 符 进 行 检查 ; 参数 x 隐 
藏 了 文件 作用 域 中 的 x， 但 是 后 者 正 需要 检测 这 种 冲突 。 这 样 ，dcllocal 函数 在 globals 表 中 检查 
标识 符 ， 如 果 找 到 ， 就 对 它 进 行 类 型 相 容 性 的 检查 。 如 果 中 间 没 有 隐藏 文件 作用 域 标识 符 的 声 
明 ， 则 第 二 次 调用 Lookup 函数 设置 q 为 已 存在 的 值 ， 这 是 最 常见 的 一 种 情况 。 而 上 面 的 例子 一 
般 很 少见 ， 但 是 总 可 能 发 生 ， 尤 其 在 大 型 程序 中 。 

dcllocal 函数 最 后 分 析 选 择 性 的 初始 化 。 与 在 initglobal 函数 中 不 同 ， 在 某 些 情况 下 初始 值 可 
能 是 任意 的 表达 式 。 如 果 局 部 变量 具有 标量 类 型 ， 它 的 初始 值 可 以 是 一 个 表达 式 或 者 用 大 括号 括 
起 来 的 表达 式 。 如 果 该 局 部 变量 是 一 个 结构 或 者 联合 ， 它 的 初始 值 可 以 是 一 个 单个 的 表达 式 或 
者 是 用 大 括号 括 起 来 的 常量 表达 式 列 表 。 如 果 该 局 部 变量 是 一 个 数组 ， 则 它 的 初始 值 只 能 是 一 
个 用 大 括号 括 起 来 的 常量 表达 式 列表 。 数 组 必须 有 明确 的 大 小 或 者 能 够 根据 初始 值 确定 其 大 小 。 
dcllocal 函数 通过 生成 对 该 局 部 变量 的 赋值 来 处 理 所 有 这 些 情 况 ; 

(dcT11ocal1 233)+ 三 33 232 

if (t ws) { 
Tree e; 


if (sclass == EXTERN) 
errorC("illegal initialization of ‘extern %s'\n", id); 


236 FEIE 


t = gettok(); 
definept(NULL); 
if Cisscalar(p->type) 
11 isstruct(p->type) && t != '{') { 
if (t == 人) { 
t = gettok(); 
e = expr1(0); 
expect('}'); 
} else 
e = exprl1(0); 
} else { 
(generate an initialized static t1236 ) 
e = idtree(tl1); 


} 
walk(root(asgn(p, e)), 0, 0); 
p->ref = 1; 


} 
if Clisfunc(p->type) && p->defined && p->type->size <= 0) 
errorC"undefined size for '%t %s‘\n", p->type, id); 


对 于 具有 标量 类 型 、 结 构 类 型 或 者 联合 类 型 的 局 部 变量 ， 如 果 它 的 初始 值 是 一 个 简单 表达 
式 ， 则 初始 化 就 是 用 初始 表达 式 对 局 部 变量 进行 赋值 。 对 于 具有 聚合 类 型 的 局 部 变量 ， 如 果 有 用 
大 括号 括 起 来 的 初始 表达 式 ，lce 会 生成 一 个 无 名 的 静态 变量 ， 并 根据 说 明 的 初始 化 值 进行 初始 
化 。 一 个 简单 的 结构 赋值 可 以 初始 化 局 部 变量 ， 甚 至 数组 。 


(generate an initialized static t1236)= 236 

Symbol t1; 

Type ty = p->type, tyl = ty; 

while Cisarray(tyl1)) 
tyl = tyl->type; 

if Clisconst(ty) && (!isarray(ty) || !isconst(ty1))) 
ty = qual(CONST, ty); 

tl = genident(STATIC, ty, GLOBAL); 

initglobal(tl, 1); 

if Cisarray(p->type) && p->type->size == 0 

&& t1->type->size > 0) 
p->type = array(p->type->type, 

tl->type->size/tl->type->type->size, 0); 


这 个 静态 变量 将 永远 不 会 改变 ， 因 此 ，const 限定 符 会 加 到 它 的 类 型 中 ， 导 致 initglobal 函数 将 它 
定义 在 LIT 段 中 。 


11.8 ”结束 处 理 


正如 上 一 节 中 介绍 的 ， 对 于 每 一 个 具有 文件 作用 域 的 标识 符 ， 在 编译 结束 时 要 调用 checkref 
函数 ， 例 如 ， 具 有 GLOBAL 作用 域 的 标识 符 。 该 调用 源 自 于 finalize 函数 ，finalize 函数 还 处 理 外 
部 变量 和 全 局 变量 。 

(decl.c functions) += Az 237 


void finalize() { 
foreach(externals, GLOBAL, doextern, NULL); 
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foreach(identifiers, GLOBAL, doglobal, NULL); 

foreachCidentifiers, GLOBAL, checkref, NULL); 

foreach(constants, | CONSTANTS, doconst, NULL); 

} 

finalize 4 行 代码 的 每 一 行 处 理 符号 表 中 的 一 组 符号 ， 这 组 符号 在 foreach 调用 中 列 出 。 第 一 行 处 
理 的 是 externals 表 中 的 标识 符 。dcllocal 函数 将 声明 为 extern 的 变量 安装 在 externals 表 中 。 这 些 
声明 中 有 一 部 分 也 引用 了 文件 作用 域 中 声明 的 标识 符 ， 并 在 identifiers 中 有 人 人口。 但 是 ， 另 一 部 
分 引用 了 在 其 他 翻译 单元 中 声明 的 标识 符 。 出 现 extern 声明 的 翻译 单元 都 需要 引入 这 些 标识 符 。 
doextern 函数 通过 调用 接口 函数 import 来 引入 它们 : 


(decl.c functions)+= B6 237 
static void doextern(p, cl) Symbol p; void *cl; { 
Symbol q = lookup(p->name, identifiers); 


if (9) 
q->ref += p->ref; 
else { 
(*IR->defsymbol) (p); 
(*IR->import) (p); 
} 
} 
“4 dellocal 函数 遇 到 一 个 extern 声明 时 ， 就 会 调用 import 函数 。 因 为 局 部 变量 声明 能 够 出 现在 文 
件 作 用 域 的 定义 之 前 ，lcc 不 能 为 这 些 局 部 变量 的 标识 符 调用 import 函数 。 
第 二 次 调用 foreach 函数 来 最 终 确定 临时 定义 和 文件 作用 域 的 extern 声明 。 没 有 初始 值 的 对 
象 如 果 没 有 存储 类 型 或 者 具有 静态 存储 类 型 ， 则 它 的 文件 作用 域 声 明 就 是 一 个 临时 定义 。 对 于 一 
个 标识 符 可 以 有 不 止 一 个 这 样 的 声明 ， 只 要 这 些 声明 类 型 指定 相 容 类 型 。 例 如 ， 输 入 : 
int x; 
int x; 
int x; 
是 有 效 的 ， 每 个 声明 都 是 x 的 一 个 临时 定义 。 一 个 具有 初始 值 的 文件 作用 域 声 明 是 一 个 外 部 定 
义 ， 可 能 只 有 一 个 这 样 的 定义 。 
在 翻译 单元 结束 时 ， 那 些 只 有 临时 定义 的 文件 作用 域 标 识 符 必须 最 终 确 定 ， 假 定 该 标识 符 在 
翻译 单元 中 有 一 个 文件 作用 域 的 外 部 定义 ， 且 具有 初始 值 0。 例 如 ，x 最 终 确 定 是 基于 假定 : 


int x = 0; 


这 样 ， 没 有 初始 化 的 文件 作用 域 对 象 会 根据 定义 初始 化 为 0。 
doglobal 函数 处 理 identifiers 表 中 的 每 个 标识 符 。 


(decl.c functions) += Br 238 
static void doglobal(p, cl) Symbol p; void *cl; { 
if (!p->defined && (p->sclass == EXTERN 
|| isfunc(p->type) && p->sclass == AUTO)) 
(*IR->import) (p); 
else if (!p->defined && |isfunc(p->type) 
&& (p->sclass == AUTO || p->sclass == STATIC)) { 
if Cisarray(p->type) 
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&& p->type->size == 0 && p->type->type->size > 0) 
p->type = array(p->type->type, 1, 0); 
if (p->type->size > 0) { 
defglobal(p, BSS); 
(*IR->space) (p->type->size); 
} else 
error("undefined size for '%t %s‘\n", 
p->type, p->name) ; 
p->defined = 1; 
} 
(print an ANSI declaration for p 238) 


如 果 一 个 外 部 标识 符 或 者 非 静 态 的 函数 没有 定义 ， 它 会 引用 一 个 在 其 他 翻译 单元 中 给 出 的 定 
义 ， 在 其 他 翻译 单元 中 定义 的 标识 符 将 被 引入 。 未 定义 的 对 象 ( 即 那些 只 有 临时 定义 的 对 象 ) 会 
在 BSS 段 中 定义 。 编 译 后 端 必须 确保 该 自在 执行 之 前 清除 。 数 组 要 进行 特殊 的 处 理 : 如 果 未 说 明 
数组 的 大 小 ， 则 会 按照 只 有 一 个 元 素来 定义 。 
Ice 的 -P 选项 使 得 doglobal 函数 在 标准 错误 输出 设备 上 输出 ANSI 风格 的 声明 。 
(print an ANSI declaration for p 238)= 238 
if (Pflag 
&& !isfunc(p->type) 


&& !p->generated && p->sclass != EXTERN) 
printdecl(p, p->type); 


对 于 函数 来 说 ， 即 使 函数 是 按 旧 风 格 定义 的 ， 输 出 也 包含 函数 原型 。 编 辑 该 输出 有 助 于 将 旧 的 程 
序 转换 为 ANSIC。 参 见 练习 4.5。 

在 编译 过 程 中 ， 大 部 分 常量 都 以 dag 形式 结束 ， 并 内 入 在 机 器 指令 代码 中 。 正 如 5.1 节 显 示 
的 配置 标准 所 规定 的 ， 一 些 常量 不 能 出 现在 指令 中 ， 字 符 串 文字 (string literals) 永远 不 能 出 现在 
指令 当中 。 对 每 个 这 样 的 常量 ， 都 会 生成 一 个 匿名 的 静态 变量 ，doconst 函数 会 把 该 变量 初始 化 
为 常量 的 值 。 


(decl.c functions) += a7 
void doconst(p, cl) Symbol p; void *cl; { 
if (p~>u.c.loc) { 
defglobal(p->u.c.loc, LIT); 
if Cisarray(p->type)) 
(*IR->defstring) (p->type->size, p->u.c.v.p); 
else 
(*IR->defconst) (ttob(p->type), p->u.c.v); 
p->u.c.loc->defined = 1; 
p->u.c. loc = NULL; 


} 
} 
constants 表 中 符号 的 u.c.loc 域 指 向 了 匿名 静态 变量 的 符号 。 
11.9 EHF 


main.c 文件 中 的 main 函数 通过 调用 program 函数 和 finalize 函数 来 开始 和 结束 编译 过 程 ， 
还 调用 了 接口 函数 progbeg 和 progend 使 得 编译 后 端 进行 初始 化 和 最 终 处 理 。 


m} 


Eo y 


{main.c functions) = 
int main(argc, argv) int argc; char *argv[]; { 
(main 239) 
return errcnt > 0; 


3 


errent 是 编译 中 检测 到 的 错误 数目 ， 因 此 ， 如 果 有 错误 lcc 就 返回 1。 在 大 多 数 系统 中 ， 这 种 


代码 终止 了 编译 系统 ， 而 不 继续 执行 后 续 处 理 程序 ， 如 汇编 器 和 链接 融 。 


239 


结束 


main 函数 调用 初始 化 函数 之 前 ， 它 必须 将 IR 指向 合适 的 接口 记录 ， 人 参见 5.11 节 。 编 译 后 端 
初始 化 bindings 数组 以 保存 名 字 和 指向 相应 接口 记录 的 指针 对 。main 函数 使 用 编译 选项 中 最 右 端 


的 -target=name 选项 来 选择 所 需要 的 接口 记录 : 


(main.c data)= 240 
Interface *IR = NULL; 


(main239)= 239 239 
{ 
int. 1, 3: 
for Ci = argc - 1; i > 0; i--) 
if (strncmp(argv[i], "-target=", 8) == 0) 
break; 
if G >o) A 
for (j = 0; bindings[j].name; j++) 
if (strcmp(éargv[i][8], bindings[j].name) == 0) 
break; 
if (bindings[j]}-ir) 
IR = bindings[{j].ir; 
else { 
fprint(2, “%s: unknown target ‘%s‘\n", argv[0], 
&argv[i][8]); 
exit(1); 
} 
} 


} 
if C!IR) { 
Ant! 1% 
fprint(2, "%s: must specify one of\n", argv[0]); 
for Ci = 0; bindings[i].name; i++) 
fprint(2, "\t-target=%s\n", bindings[i] .name); 
exit(1); 
} 


如 果 没 有 给 出 -target 选项，lcc 则 列 出 所 有 可 能 的 目标 并 退出 。IR 一 旦 指向 一 个 接口 记录 ， 


前 端 就 会 被 绑 定 到 一 个 目标 机 器 上 ， 而 且 在 该 翻译 单元 的 处 理 过 程 中 这 种 绑 定 不 会 改变 。 
接 下 来 ，main 函数 初始 化 编译 前 端的 类 型 系统 并 且 分 析 其 他 编译 选项 ; 
(main 239)+= Bo 240 239 


typeInitQ; 
argc = doargs(argc, argv); 


编译 
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除了 处 理 编译 前 端 能 够 理解 的 参数 外 ，doargs 函数 还 要 把 infile 和 outfile 分 别 设置 为 第 一 个 和 第 
二 个 非 选 择 性 参数 。 这 两 个 值 就 是 输入 的 源 文件 名 和 输出 的 汇编 语言 文件 名 。 如 果 给 出 了 这 两 个 
文件 中 的 一 个 (或 者 两 个 )，main 函数 就 打开 文件 并 设置 相应 的 文件 描述 符 。 


(main.c data) += 339 
- static char *infile, *outfile; 


(main 239)+= 239 240 239 
if Cinfile && strcmpCinfile, "-") != 0) 
if (Cinfd = open(infile, 0)) < 0) { 
fprint(2, “%s: can't read '%s'\n”, 
argv[0], infile); 
exit(1); 


} 
if (outfile && strcmp(outfile, "-") != 0) 
if (Coutfd = creat(outfile, 0666)) < 0) { 
fprint(2, “%s: can't write '%s‘\n", 
argv[0], outfile); 


exit(1); 
inputInitQO; 
outputInit(); 
初始 化 文件 描述 符 后 ， 上 面 的 Init 函数 就 会 初始 化 输入 和 输出 模块 ， 接 着 初始 化 编译 后 端 : 
(main 239) += 240 240 239 


t = gettok(); 

(*IR->progbeg) (argc, argv); 
doargs 函数 修改 argv， 只 保存 那些 前 端 不 能 理解 的 选项 ， 它 们 被 认为 是 编译 后 端的 选项 。doargs 
函数 返回 这 些 选项 的 数目 ， 并 赋 给 上 面 的 argc 参数 。program 函数 编译 源 代码 : 


(main 239)+= 240 240 239 
program() ; 


最 后 ，main 函数 调用 finalize 函数 和 接口 过 程 progend， 并 输出 结果 ， 结 束 编译 : 


(main 239) 十 三 2 名 239 
finalize(); 
(*IR->progend) () ; 
outflush(); 


深入 阅读 

Ritchie ( 1993 ) 详细 介绍 了 C 语言 的 发 展 历史 ， 说 明了 其 声明 语法 的 起 源 和 特点 ， 这 也 是 C 
语言 的 突出 特点 之 一 ， 同 时 也 是 经 常 受到 批评 的 地 方 。Sethi (1981) 总 结 了 各 种 设计 思想 ， 提 出 
了 一 种 声明 符 的 替代 语法 : 用 Pascal 中 的 后 级 ^ 代 替 C 中 的 前 级 * 来 表示 指针 。 如 果 他 的 替代 语 
法 被 采纳 ， 则 delr 函数 和 dclrl 函数 可 以 大 大 简化 。 

与 大 多 数 高 级 语言 一 样 ，C 语言 要 求 标识 符 在 被 使 用 之 前 先进 行 声明 (函数 除外 )。 这 条 规则 
强迫 语言 设计 者 允许 多 次 声明 ， 并 且 引 入 一 些 规 则 ， 例 如 C 语言 中 尝试 性 定义 的 规则 。 在 dclX 
函数 .doglobal 函数 和 doextern 函数 中 的 大 部 分 代码 都 用 来 处 理 这 些 设计 规则 。Modula-3 (Nelson, 
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1991) 是 极 少数 允许 声明 和 使 用 以 任意 顺序 出 现 ， 从 而 避免 了 顺序 规则 的 语言 之 一 ， 因 此 语言 的 
理解 变 得 简单 许多 。 这 种 设计 思想 在 编译 领域 有 其 影响 ,但 是 这 种 影响 并 没有 超过 C 语言 中 多 次 
声明 这 一 规则 的 影响 。 


练习 
11.1 delr! 函数 接受 错误 声明 int *const const*p， 但 lec 仍 会 给 出 预期 的 检测 信息 : 
illegal type ‘const const pointer to int' 


该 错误 是 在 哪里 以 及 如 何 被 检测 到 的 ? 

11.2 dell 的 实现 看 起 来 很 特殊 。 第 207 页 的 语法 规范 建议 dclrl 函数 以 一 个 循环 开始 ， 该 循环 通过 分 析 剩 
余 声明 符 来 计算 指针 。 使 用 该 方法 重 写 一 个 der 函数 。 你 会 发 现 需 要 把 逆序 类 型 的 指针 部 分 添加 到 
通过 分 析 剩 余 声明 符 而 构建 的 逆序 类 型 中 。 通 过 程序 变换 ， 把 你 的 实现 改 成 与 dclrl 类 似 的 情况 。 

11.3 类 型 名 用 于 类 型 转换 ， 也 可 作为 sizeof (参见 <type cast> 和 <sizeof) 的 操作 数 。 类 型 定义 的 语法 格式 
如 下 : 
type-name: 

{ type-specifier | type-qualifier } [ abstract-declarator ] 


abstract-declarator: 
* { type-qualifier } 
pointer '(' abstract-declarator ')' 


{ suffix-abstract-declarator } 
pointer { suffix-abstract-declarator } 


suffix-abstract-declarator: 
'[" [ constant-expression ] ']' 
*(' parameter-list ‘)" 


抽象 声明 符 (abstract- declarator) #LE—“MA A ten AT, SL 


(main.c exported functions) = 241 
extern Type typename ARGS((void)); 
用 它 来 分 析 type-name。 当 delr 函数 的 参数 abstract FF 1 时 ， 它 将 分 析 抽 象 声 明 符 ， 所 以 typename 
函数 可 以 让 delr 做 大 部 分 工作 ， 而 函数 自身 不 会 超过 10 行 代码 。 
11.4 实现 : 
{main.c exported functions) += Åi 242 
extern void checklab ARGS((Symbol p, void *c1)); 了 
对 stmtlabs 中 的 每 个 符号 都 调用 checklab 函数 。 如 果 p 是 一 个 未 定义 的 标号 ，checklab 将 处 理 这 种 
错误 。 
11.5 dcllocal 函数 调用 initglobal 函数 来 分 析 静 态 局 部 变量 的 初始 化 ， 但 是 它 也 可 以 分 析 一 个 可 选 的 初始 
化 。 即 使 这 样 lce 还 是 拒绝 类 似 于 下 面 的 输入 : 


fO { static int x = 
gO { static int y = 


请 解释 一 下 原因 。 


2 3; 3 
oye a F 
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11.6 在 fields 函数 中 ， 具 有 最 大 对 齐 数 的 域 决定 了 整个 结构 的 对 齐 数 。 只 因为 基本 类 型 的 大 小 和 对 齐 数 都 


11.7 


11.8 


11.9 


必须 是 2 WE, PASE MIL. (EM fields 函数 ， 使 得 对 于 基本 类 型 的 大 小 和 对 齐 数 的 任何 正 值 ， 
该 结论 都 是 正确 的 。 

位 域 声明 (例如 unsigned:0 ) 会 导致 接 下 来 的 位 域 被 存放 在 下 一 个 可 编 址 的 存储 单元 ， 即 使 当前 单元 
还 有 空间 。 例 如 ， 如 果 图 11-1 的 声明 改 为 : 


struct { 
char a[5]; 
short sl, s2; 
unsigned code:3, :0, used:1; 
int amt:7, last; 
short id; 
} 
code 域 存放 在 无 符号 整数 中 ， 偏 移 量 为 12，used 域 存放 在 amt 域 的 右边 ， 并 与 code 存放 在 同一 无 符 
号 整数 中 ， 偏 移 量 为 16。 解 释 fields 函数 是 如 何 处 理 这 种 情况 的 。 
fields 函数 的 代码 很 难 读 懂 。 写 一 个 新 的 (假定 是 更 好 的 ) 版 本 并 比较 两 个 版 本 ,看 看 是 不 是 你 的 版 本 
更 容易 理解 一 些 ? 对 于 它 的 正确 性 你 有 没有 足够 的 信心 ? 
枚 举 说 明 符 的 语法 格式 如 下 : 
enum-specifier: 


enum [ identifier ] '{' enumerator { , enumerator } '}' 
enum identifier 


enumerator: 

identifier 

identifier = constant-expression 
为 枚 举 说 明 符 enum-specifier 实现 分 析 函 数 ; 
(main.c exported functions) += Îi 

extern Type enumdcl ARGS((void)); 
enumdcl 函数 类 似 于 structdcl 函数 ， 但 是 更 简单 一 些 ， 而 且 对 于 单独 出 现在 声明 中 的 枚 举 说 明 符 
enum-specifier 没有 特殊 的 规则 ， 枚 举 定义 不 允许 相互 递归 。 因 此 一 个 具有 enumerator 的 枚 举 说 明 符 
enum-specifier 必定 不 会 引用 已 经 存在 的 枚 举 类 型 。enumdcl 函数 可 以 使 用 newstruct 函数 来 定义 一 个 
新 的 枚 举 类 型 ， 并 且 它 会 在 的 identifiers 表 中 建立 具有 ENUM 存储 类 型 的 枚 举 常 量 。 枚 举 常量 的 整数 
值 存储 在 该 符号 的 uvalue 域 中 。 
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中 间 代 码 的 生成 





lee 编译 器 前 端的 剩余 代码 将 分 析 树 转换 为 dag (无 环 有 向 图 )， 并 将 其 添加 到 代码 表 中 。 编 
译 后 端 通过 function 接口 过 程 调用 gencode 函数 和 emitcode 函数 来 遍历 代码 表 。 这 部 分 代码 在 
dag.c 文件 中 ，dag.c 文件 输出 gencode 和 emitcode 函数 (参见 5.10 节 )。 

(dag.c exported functions) += W 
extern void walk ARGSCCTree e, int tlab, int flab)); 
extern Node listnodes ARGS((Tree e, int tlab, int flab)); 
extern Node newnode ARGS((int op, Node left, Node right, 

Symbol p)); 
walk 和 listnodes 函数 操作 处 理 dag 森林 (5.5 节 中 定义 )。 森 林 序 列表 示 函 数 的 代码 。 该 森林 序列 
由 代码 表 中 的 Gen, Jump 和 Label 入 口 构成 。10.3 节 概 述 了 listnodes 函数 如 何 逐 步 构建 森林 序列 ， 
将 分 析 树 e 转换 为 dag 并 将 dag 添加 到 森林 中 。 图 5-2 和 图 5-3 给 出 了 森林 的 例子 。 

walk 函数 通过 调用 listnodes 函数 将 树 e 转 换 为 dag， 并 将 森林 添加 到 代码 表 的 Gen 入口 中， 
然后 为 新 的 森林 重新 初始 化 编译 前 端的 一 些 变量 。 将 树 转 换 为 dag 的 复杂 工作 主要 由 listnodes K 
数 承 担 ， 因 此 walk 函数 很 简单 : 


(dag.c functions)= 245 
void walk(tp, tlab, flab) Tree tp; int tlab, flab; { 
listnodes(tp, tlab, flab); 
if (forest) { 
code(Gen)->u. forest = forest->link; 
forest->link = NULL; 
forest = NULL; 
} 
reset(); 
deallocate(ST™1); 
} 


(dag.c data) = 245 
static Node forest; 

forest 指向 当前 森林 的 最 后 一 个 节点 ,森林 在 构建 的 时 候 是 一 个 循环 链表 ， 该 链表 通过 节点 的 
link 域 连接 起 来 ， 因 此 forest->link 就 是 森林 的 第 一 个 节点 。 当 walk 函数 将 森林 添加 到 代码 表 中 
时 ， 就 将 该 链表 转换 为 一 个 非 循环 链表 。 

传递 给 listnodes 函数 和 walk 函数 的 tlab Al flab 的 值 表示 标号 的 数值 ， 当 e 为 一 个 条 件 表达 
式 (比如 “比较 ”) 时 才 用 到 它们 的 值 。 如 果 tlab 是 非 零 值 ， 那 么 当 e 也 非 零 时 ，listnodes 函数 
就 生成 跳 转 到 tlab 的 代码 。 如 果 flab 非 零 而 e 等 于 0; 则 listnodes 函数 生成 跳 转 到 flab 的 代码 。 
10.4 节 给 出 了 如 何 用 这 些 标号 来 生成 让 语 句 的 代码 。tlab 和 flab 的 值 只 有 一 个 可 以 是 非 零 值 。 

newnode 函数 为 节点 分 配 内 存 空间 并 用 它 的 参数 值 来 初始 化 节点 的 域 。 例 如 ，newnode K 
数 可 以 被 编译 前 端的 definelab 和 jump 函数 调用 ; 由 于 后 端 必须 构建 dag 溢出 寄存 器 ， 因 此 
newnode 也 可 以 被 编译 后 端 调用 。 
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listnodes 函数 还 要 负责 删除 公共 子 表达 式 ， 即 用 来 计算 元 余 值 的 表达 式 。 例 如 ， 图 8-1 给 出 
了 表达 式 (atb) +b* (atb) 的 分 析 树 。a+b 的 值 被 计算 了 两 次 ，b 的 右 值 也 计算 了 两 次 : 第 一 次 
是 计算 atb， 第 二 次 是 计算 乘法 表达 式 。 尽 管 b 的 右 值 是 一 个 简单 的 计算 ， 但 还 是 有 一 次 元 余 。 
图 12-1 给 出 了 删除 这 些 公共 子 表达 式 后 的 dag。 左 值 也 可 能 是 公共 表达 式 ， 例 如 图 5-3 森林 中 的 
p 的 左 值 。 这 些 图 和 其 他 dag 图 中 的 操作 符 与 表 5-1 中 的 一 样 。 在 后 缀 前 省 略 “+” 号 以 区 别 分 
析 树 和 dag. 


ADDI 
ADDI MULI 
INDIRI INDIRI 
ADDRGP ADDRGP 
a b 


图 12-1 (a+b) +b* (a+b) AY dag 图 


编译 前 端 构 建 的 某 些 分 析 树 ,已 经 在 源 语言 中 通过 扩充 的 赋值 和 后 级 操作 符 反映 了 dag 的 结 
构 ， 实 际 上 就 是 dag 了 。 图 8-2 中 表达 式 a+=b 的 分 析 树 和 图 8-3 中 itt 的 分 析 树 就 是 很 好 的 例 
子 。 为 了 产生 有 效 的 中 间 代 码 ，listnodes 函数 必须 检查 这 种 习惯 用 法 ， 以 便 按照 标准 的 规定 生成 
计算 这 些 操作 的 操作 数 的 中 间 代 码 。 前 级、 后 级 和 扩充 的 赋值 操作 的 操作 数 只 能 计算 一 次 。 

分 析 树 包含 的 操作 符 并 不 是 表 5-1 中 列 出 的 接口 指令 表 的 一 部 分 。listnodes 函数 生成 表 8-1 
中 操作 符 的 实现 代码 ， 然 后 清除 这 些 操作 符 。 例 如 ， 通 过 使 用 具有 标号 的 比较 操作 ， 以 及 插入 跳 
转 和 定义 必要 的 标号 ，listnodes 函数 实现 了 AND。 同 样 ， 结 合 移 位 和 屏蔽 操作 实现 了 指定 位 域 析 
取 或 赋值 操作 FIELD. 

基本 块 是 只 有 单 和 人口 和 单 出 口 的 顺序 执行 的 指令 序列 ; 如 果 代 码 块 中 的 一 条 指令 被 执行 ， 则 
所 有 指令 都 会 被 执行 。 基 本 块 一 般 以 跳 转 的 目标 指令 、 条 件 或 非 条 件 跳 转 指令 的 后 继 指 令 开 始 。 
编译 器 通常 使 用 流 图 来 表示 函数 。 流 图 中 的 节点 就 是 基本 块 ， 而 有 向 箭头 则 表示 了 基本 块 之 间 可 
能 的 控制 流 。lce 的 代码 表 不 是 流 图 ，Gen 入 口中 的 森林 可 以 包含 跳 转 指令 和 标号 ， 也 不 是 基本 
块 。 它 们 所 表示 的 可 以 称 为 扩展 基本 块 : 单个 人 口 点 , 但 有 多 个 出 口 和 多 个 内 部 执行 路 径 。 从 下 
面 要 介绍 的 listnodes 函数 的 实现 可 以 看 到 ， 在 某 些 情况 下 ， 这 种 设计 使 得 公共 表达 式 可 以 在 整个 
扩展 基本 块 内 考虑 。 这 样 listnodes 函数 可 以 花费 很 小 的 代价 使 这 些 子 表达 式 的 生命 期 超越 基本 块 
的 范围 。 


12.1 消除 公共 子 表 达 式 


listnodes 函数 根据 树 t 构 建 相应 的 节点 ne。 分 析 树 在 8.1 节 中 定义 ， 节 点 在 5.5 节 中 定义 。 
n->op 来 自 于 t->op，n->syms 的 元 素来 自 于 t->u.sym 或 者 是 在 constants 表 中 建立 的 t+>uv， 或 者 
由 listnodes 函数 根据 其 他 常量 构造 。n->kids 的 元 素来 自 于 t->kids 对 应 元 素 的 节点 。n 还 有 一 个 
count 域 ， 它 表示 引用 n 作为 操作 数 的 节点 的 数目 。 

节点 自 底 向 上 构建 : n 通过 按 后 序 遍 历 t 来 构造 ， 等 价 于 


1 = listnodes(t->kids[0], 0, 0); 
r = listnodes(t->kids[1], 0, 0); 
n = node(t->op, 1, r, t->u.sym); 
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node 函数 为 一 个 新 的 节点 分 配 存储 空间 并 用 它 的 参数 来 初始 化 域 。 为 了 删除 公共 子 表达 式 node 
函数 要 检查 所 要 的 节点 是 否 已 经 构建 ， 也 就 是 说 ， 如 果 已 经 有 一 个 各 域 相 同 的 节点 ， 就 不 必 构 建 
一 个 新 的 节点 了 。 

node 函数 要 维护 一 张 已 构建 节点 的 表格 ， 在 为 一 个 新 节点 分 配 内 存 之 前 需要 查询 这 张 表 。 当 
它 为 一 个 新 节点 分 配 了 内 存 空间 后 ， 就 将 该 节点 添加 到 这 张 表 中 。 图 12-1 展示 了 由 图 8-1 中 的 树 
构建 dag 的 过 程 ， 并 说 明 这 张 表 是 如 何 构建 和 使 用 的 。 表 12-1 给 出 了 node 函数 的 调用 序列 以 及 
每 一 步 构建 的 节点 〈 如 果 需 要 构建 新 节点 ) 和 返回 值 。 中 间 一 列表 示 了 通过 node 函数 形成 表 的 过 
程 。 节 点 是 用 数字 表示 的 。 第 一 次 调用 是 对 图 8-1 左下 角 的 ADDRG+P 树 进 行 处 理 ; 此 时 node 
的 表 是 空 的 ， 所 以 它 就 为 ADDRG+P 构建 了 一 个 节点 并 返回 该 节点 。 接 下 来 的 4 次 调用 与 此 类 
似 ， 都 遍历 a+b 树 的 剩余 部 分 ,每 一 步 都 构建 了 相应 的 节点 并 将 其 返回 。 节 点 返回 后 ， 它 们 被 其 
他 节点 用 作 操 作 数 。 当 对 MULH 左 操作 数 的 叶 节 点 ADDRG+P 调用 node 函数 时 ， 它 会 发 现 该 节 
点 在 表 中 (节点 3 ) 并 返回 它 。 类 似 地 ， 它 也 会 发 现 节 点 4 对 应 于 CINDIRI3), node 函数 不 断 在 
表 中 寻找 节点 ， 其 中 就 包括 公共 子 表 达 式 atb 对 应 的 节点 。 

表 12-1 为 (a+b) +b* (a+b) 调用 node 函数 


调用 参数 eee Pee TA Re a R 
ADDRG+P irata -avaro lima | iABDAGE ge 77} ! 
INDIR+ Laasti DY (ee ee 2 
ADDRG+P i SS) a ae T A 3 
INDIR+I es Ae) ee del 4 
A el AN eae Sa er Cae 
ADDRG+P PS Tr? SEE 3 
INDIR+ Ee Sy EP mn a 4 
ADDRG+P es Ne |, a ee 
INDIR+1 |: PR 2 
ADDRG#P Ce Fort A ee ee 3 
Sed ey ae BR SR CL 
ADD#] Gs ie Tian BS 5 
MUL+I re ae Rie A ee 6 
ADDH Faas Rn Re ee 7 

上 表 第 2 列 描述 的 节点 存储 在 哈 希 表 中 
(dag.c data) += 243 260 


static struct dag { 
struct node node; 
struct dag *hlink; 

} *buckets [16]; 

int nodecount; 


dag 结构 包含 一 个 节点 和 指向 同一 哈 硕 桶 中 的 另 一 个 dag 结构 的 指针 。nodecount 表示 buckets 中 
的 节点 总 数 。 哈 希 表 中 的 节点 数 很 少 超过 几 十 个 ， 因 此 只 需要 16 个 哈 希 桶 。node 函数 在 buckets 
中 搜索 具有 相同 操作 符 、 操 作 数 和 符号 的 节点 ， 如 果 找 到 就 返回 该 节点 ; 否则 就 构建 一 个 新 的 节 
点 ， 并 将 新 节点 添加 到 buckets 中 ， 然 后 返回 该 新 节点 。 


(dag.c functions) += 243 246 
static Node node(op, 1, r, sym) 
int op; Node 1, r; Symbol sym; { 
int i; 
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struct dag *p; 


i = (opindex(op)A((unsigned)sym>>2))&(NELEMS (buckets)-1); 

for (p = buckets[i]; p; p = p->hlink) 
if (p->node.op == op && p->node.syms[0] == sym 
&& p->node.kids([0] == 1 && p->node.kids[1] == r) 

return &p->node; 

p = dagnode(op, 1, r, sym); 

p->hlink = buckets[i]; 

buckets[i] = p; 

++nodecount; 

return &p->node; 


} 


dagnode 函数 分 配 并 初始 化 新 的 dag 和 它 包含 的 节点 。 如 果 有 操作 数 节 点 ， 它 还 要 负责 增加 该 操 
作 数 节点 的 count 域 。 


(dag.c functions) += 245 246 
static struct dag *dagnode(op, 1, r, sym) 
int op; Node 1, r; Symbol sym; { 
struct dag *p; 


NEWO(p, FUNC); 

p->node.op = op; 

if ((p->node.kids[0] = 1) != NULL) 
+4+1->count; 

if ((p->node.kids[{1] = r) != NULL) 
++r->count; 

p->node.syms[0] = sym; 

return p; 


} 


listnodes KOK node 函数 查找 一 个 公共 子 表 达 式 的 节点 或 者 建立 一 个 新 节点 ， 调 用 newnode 
函数 跳 过 查 表 过 程 ， 直 接 构 建 一 个 新 节点 ， 但 新 节点 不 添加 到 buckets 中 : 


(dag.c functions)+= 246 247 
Node newnode(op, 1, r, sym) int op; Node 1, r; Symbol sym; { 
return &dagnode(op, 1, r, sym)->node; 


只 有 newnode 函数 可 以 被 编译 后 端 用 来 构造 它们 所 需要 的 节点 ， 比 如 生成 溢出 寄存 器 的 代码 。 

只 要 节点 表示 的 值 是 有 效 的 ， 节 点 就 会 出 现在 buckets 中 。 赋 值 或 者 函数 调用 会 使 buckets 中 
的 部 分 或 所 有 节点 无 效 。 例 如 ,在 下 面 的 代码 中 : 

c=a+b; 

a = a/2; 

d =a +b; 
在 第 3 行 中 计算 的 atb 的 值 与 第 1 行 计算 的 值 是 不 相同 的 。 第 2 行 对 a 的 赋值 失效 节点 (INDIRI 
a)， 其 中 a 表 示 的 是 变量 a 的 左 值 的 节点 。 有 副作用 的 操作 符 ， 如 ASGN 和 CALL， 必 须 清除 
其 失效 的 节点 。 对 于 这 样 的 操作 符 ， 受 影响 的 节点 各 不 相同 ， 而 lcc 仅 按 两 种 情况 处 理 : 对 标 
识 符 的 赋值 要 删除 标识 符 的 右 值 节 点 ， 而 其 他 有 副作用 的 操作 符 要 清除 所 有 节点 。kill 函数 处 理 
赋值 : 
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(dag.c functions) += 246 248 
static void kill(p) Symbol p; { 
inti; 
struct dag **q; 


for (i = 0; i < NELEMS(buckets); i++) 
for (q = &buckets[i]; *q; ) 
if ((*q represents p's rvalue247)) { 
*q = (*q)->hlink; 
--nodecount; 
} else 
q = &(*q)->hlink; 
} 
p 的 右 值 显然 可 以 是 形式 为 (INDIR(ADDRxP p)) 的 dag， 这 里 ADDRxP 是 任何 一 个 地 址 操作 符 ; 
也 可 以 是 形式 为 (INDIRa) 的 dag， 此 处 a 是 任意 地 址 计算 ,甚至 可 能 是 计算 p 的 地 址 。 这 两 种 
情况 都 由 下 面 的 代码 进行 检查 : 


(*q represents p’s rvalue247)= 247 
generic((*q)->node.op) == INDIR & 
(lisaddrop((*q)->node.kids[0]->op) 
|| (*q)->node.kids[0]->syms[0] == p) 

只 有 INDIR 节点 必须 被 删除 ， 这 足以 使 得 后 续 的 查 表 工作 都 失败 。 例 如 ， 在 经 过 赋值 语句 a = 
a/2 Ja, ath 的 节点 仍 保存 在 buckets 中 。 但 是 当 把 a+b 赋值 给 d 时 ， 不 会 找到 该 atb 节点 。 对 a 
右 值 的 引用 会 构建 新 的 节点 ， 使 得 必须 也 为 atb 构建 一 个 新 的 节点 。 这 个 例子 接 下 来 对 node K 
数 的 调用 全 都 在 表 12-2 中 显示 。 因 为 赋值 语句 a=a/2 已 经 删除 了 节点 3，a 的 右 值 在 表达 式 d=a+b 
中 会 重用 左 值 ， 但 是 要 构建 一 个 新 的 INDIRI 节点 。 赋 值 通过 调用 newnode 函数 来 构建 节点 ， 所 
以 不 会 出 现在 buckets 中 。 


R 12-2 为 c=a+b; a=a/2; d=a+b 调用 node BA 


调用 参数 POE U RN Pe SRS a 
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ADDRG+P ae tiie ay 
INDIR+ fe btn bi a. lillies heme sal: 
ADDRG+P Tia AU L BE ee ie ed he 
INDIR+i bak Lo a ae 
ADDH kas os | ee ee $ 
ASGNHI ee g | tenn (ceo ) | 20803 eea 7 
ADDRG+P beset | alend i testen T] Be 2 
INDIR‘ oe gs Ct RB ee 
CNSTH eee i EE Mk dd pe ee. 
DIVA E eee ls 
ASGNH D a | Sulam ars SB aler 10 
ADDRG+P Z p a o o | es 1l 
ADDRG+P E he Se 
INDIRH he a ee ee 
ADDRG+P Fe SD ie ple ee diel oT 
INDIR# 相生 Senet GE: 
ADDI [Bs| | Rnphzg | 8 
ASGNH a 2 A r a 
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reset 函数 通过 清除 buckets 和 nodecount 来 删除 buckets 中 的 所 有 节点 : 


(dag.c functions) += 247 248 
static void reset() { 
if (nodecount > 0) 
memset(buckets, 0, sizeof buckets); 
nodecount = 0; 
} 


12.2 构建 节点 


listnodes 函数 为 作为 其 参数 的 树 构 建 节点 ， 实 现时 ， 根 据 树 的 操作 数 来 递归 调用 自身 ， 根 据 
操作 符 调用 node 函数 或 者 newnode 函数 ， 有 必要 的 话 还 要 调用 kill 或 者 reset 函数 。 


(dag.c functions) += 748 251 
Node listnodes(tp, tlab, flab) Tree tp; int tlab, flab; { 
Node p = NULL, 1, r; 


if (tp == NULL) 
return NULL; 
if (tp->node) 
return tp->node; 
switch (generic(tp->op)) { 
(listnodes cases248 ) 
} 
tp->node = p; 
return p; 


} 


tp->node 指向 树 tp 的 节点 。 这 个 域 标识 了 listnodes 函数 访问 过 的 树 ， 并 确保 listnodes 函数 为 就 
是 dag 的 树 返回 正确 的 节点 ， 例 如 图 8-2 和 图 8-3 中 所 示 的 树 。 在 这 些 用 法 中 多 次 引用 的 子 树 会 
不 止 一 次 被 访问 ; 第 一 次 访问 时 构建 节点 ， 而 接 下 来 的 访问 只 是 返回 该 节点 。 

在 listnodes 函数 中 的 switch 语句 将 操作 符 分 组 ， 同 一 组 中 的 操作 符 具 有 相同 的 遍历 和 构建 节 
点 代码 : 


(listnodes cases 248)= 248 


case AND: { (AND252) } break; 
case OR: { (OR) } break; 

case NOT: { (NOT 251) } 

case COND: { (COND254) } break; 
case CNST: { (CNST255) } break; 
case RIGHT: { (RIGHT 261) } break; 
case JUMP: { (JUMP250) } break; 
case CALL: { (CALL260) } break; 
case ARG: { (ARG 261) } break; 


case EQ: case NE: case GT: case GE: case LE: 
case LT: { (EQ..LT251) } break; 

case ASGN: { (ASGN 256) } break; 

case BOR: case BAND: case BXOR: 

case ADD: case SUB: case RSH: 

case LSH: { (ADD..RSH249) } break; 
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case DIV: case MUL: 

case MOD: { (DIV..MOD) } break; 

case RET: { (RET) } break; 

case CVC: case CVD: case CVF: case CVI: 
case CVP: case CVS: case CVU: case BCOM: 
case NEG: { (CVx,NEG,BCOM 249) } break; 
case INDIR: { (INDIR 249) } break; 

case FIELD: { (FIELD250) } break; 

case ADDRG: 

case ADDRF: { (ADDRG,ADDRF249) } break; 
case ADDRL: { (ADDRL 249) } break; 


最 长 的 操作 符 组 是 一 元 操作 符 组 。 遍 历代 码 访问 一 元 操作 符 唯 一 的 操作 数 并 构建 节点 : 
(CVx ,NEG,BCOM 249) = 249 


] = listnodes(tp->kids[0], 0, 0); 
D = node(tp->op. 1. NULL. NULL): 


二 元 操作 符 的 遍历 代码 也 类 似 : 
(ADD. .RSH 249 ) 三 248 
1 = listnodes(tp->kids[0], 0, 0); 


r = listnodes(tp->kids[1], 0, 0); 
p = node(tp->op, 1, r, NULL); 


DIV, MUL 和 MOD 并 不 包含 在 这 类 情况 里 。 如 果 设 置 了 接口 标志 mulops_calls， 它 们 就 必须 被 
当 作 函 数 调用 来 处 理 ， 参 见 练习 12.5。 
3 个 地 址 操作 符 为 其 所 引用 的 符号 的 左 值 构建 节点 : 


(ADDRG ,ADDRF 249 ) 三 249 
p = node(tp->op, NULL, NULL, tp->u.sym); 


(ADDRL 249) = 249 
if (tp->u.sym->temporary) 
addlocal(tp->u.sym); 
p = node(tp->op, NULL, NULL, tp->u.sym); 


如 果 一 个 局 部 变量 是 临时 的 ， 则 不 可 能 出 现在 代码 表 中 。 如 果 有 必要 ，addlocal 函数 为 临时 变量 
增加 一 个 Local 代码 表 入 口 。 因 为 有 些 临 时 变量 从 来 不 会 用 到 ， 也 从 来 不 需要 通知 后 端 ， 所 以 不 
能 预先 增加 这 些 人 人口 地 址 。 直 到 最 后 必要 的 时 刻 才 会 生成 Local 代码 表 入 口 地 址 ， 从 而 保证 效 
K, 抛弃 无 用 的 临时 变量 。 

INDIR 树 为 右 值 构建 节点 ,但 是 声明 为 volatile 的 地 址 要 进行 特殊 处 理 : 


(INDIR 249)= 249 
Type ty = tp->kids[0]->type; 
1 = listnodes(tp->kids(0], 0, 0); 
if Cisptr(ty)) 
ty = unqual(ty)->type; 
if Cisvolatile(ty) 
|} Cisstruct(ty) && unqual (ty) ->u.sym->u.s.vfields)) 
p = newnode(tp->op, 1, NULL, NULL); 
else 
p = node(tp->op, 1, NULL, NULL); 
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如 果 左 值 的 类 型 是 (POINTER T), INDIR 就 会 按 其 他 一 元 操作 符 一 样 处 理 。 但 是 如 果 左 值 
的 类 型 是 ( POINTER (VOLATILE T))， 则 在 源 代 码 中 对 右 值 的 每 一 次 读 取 必须 在 执行 时 实际 读 右 
值 。 这 种 限制 意味 着 右 值 不 能 被 当 作 公共 子 表达 式 处 理 ,， 所 以 该 节点 应 由 newnode 函数 构建 。 这 
种 限制 也 适用 于 具有 类 型 (POINTER(STRUCT…)) 和 (POINTER(UNION:::)) 的 左 值 ， 这 里 结构 
或 联合 有 一 个 或 多 个 域 声明 为 volatile。 

位 域 通过 FIELD 树 引 用 。 对 位 域 的 赋值 是 作为 一 棵 ASGN 树 出 现 的 ， 而 该 ASGN 树 的 左 操 
作 数 是 FIELD 树 ; 将 在 12.4 节 中 介绍 的 针对 ASGN 的 case 分 支 ， 会 检测 这 种 用 法 。 在 其 他 树 中 ， 
FIELD 的 出 现 表 示 位 域 的 右 值 。FIELD 操作 符 只 能 在 树 中 出 现 ， 所 以 listnodes 函数 必须 用 其 他 操 
作 合 成 位 域 的 抽取 操作 ， 比 如 移 位 和 屏蔽 操作 。 

从 无 符号 整数 或 整数 右 端的 m 位 开始 抽取 具有 s 位 的 位 域 要 考虑 两 种 情况 : 如 果 该 位 域 是 无 
符号 的 ， 它 可 以 通过 右 移 m 位 、 然 后 再 把 它 和 s 位 的 屏蔽 位 相 与 获得 ; 如 果 该 位 域 是 有 符号 的 ， 
其 最 高 有 效 位 作为 符号 位 ， 抽 取 域 时 必须 进行 扩展 。 这 样 ， 一 个 有 符号 域 可 以 通过 类 似 于 下 面 的 
代码 获得 : 

CCint) (C*p)<<(32 — m)))>>(32 — $) 

这 里 假设 一 个 字 有 32 位 ，p 指向 保存 该 域 的 字 。 表 达 式 先 将 该 字 左 移 ， 使 得 域 的 最 高 有 效 位 为 符 
号 位 ， 然 后 做 算术 右 移 ， 使 移入 的 位 均 为 符号 位 。 该 表达 式 同样 适用 于 无 符号 的 情形 ， 只 不 过 是 
用 无 符号 类 型 转换 替换 整数 类 型 转换 ， 这 也 就 是 listnodes 函数 对 于 两 种 情形 的 处 理 方 法 : 


(FIELD250 ) 三 249 
Tree q = shtree(RSH, 
shtree(LSH, tp->kids[0], 
consttree(fieldieft(tp->u. field), inttype)), 
consttree(8*tp->type->size - fieldsize(tp->u.field), 
inttype)); 
p = listnodes(q, 0, 0); 
这 里 宏 fieldleft 有 运算 结果 等 于 32-m，consttree 的 第 一 个 参数 是 32-s。 内 层 的 shtree 调用 构建 的 
树 的 类 型 依赖 于 tp->kids[0] 的 类 型 ， 可 能 是 整数 或 者 无 符号 整数 ， 这 就 使 得 外 层 的 shtree 调用 生 
成 RSH+I 或 者 RSH+U。 


12.3 ”控制 流 


上 一 节 所 介绍 的 一 元 或 二 元 操作 将 节点 加 入 节点 表 中 ， 这 些 节点 会 被 其 他 节点 引用 ,但 是 ， 
除了 INDIR 节点 ， 它 们 从 来 不 会 作为 森林 的 根 节 点 出 现 。 如 果 一 个 节点 具有 副作用 或 者 它 必须 
在 森林 的 下 层 dag 中 的 节点 之 前 计算 ， 那 么 该 节点 就 可 以 作为 根 节点 。 图 5-3 中 INDLRP 节点 作 
为 根 结 点 的 例子 就 属于 第 二 种 情况 。 赋 值 、 调 用 、 返 回 、 标 号 、 跳 转 以 及 条 件 转移 都 属于 第 一 种 
情况 。 一 部 分 这 些 操 作 符 改变 了 控制 流 ， 也 会 影响 到 节点 表 。 跳 转 是 最 简单 的 情形 : 

(JUMP 250 ) 三 248 

1 = listnodes(tp->kids[0], 0, 0); 

list(newnode(JUMPV, 1, NULL, NULL)); 

reset(); 
处 理 跳 转 时 ， 节 点 表 中 的 表达 式 不 会 被 跳 转 后 面 的 代码 用 到 ， 因 此 必须 重 置 节点 表 。 上 述 代码 调 
用 newnode 构建 JUMPV 节点 ， 通 过 list 函数 将 其 作为 根 节点 添加 到 森林 中 : 
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(dag.c functions)+= 248 252 
static void list(p) Node p; { 
if (p & p->link == NULL) { 
if (forest) { 
p->link = forest->link; 
forest->link = p; 


} else 
p->link = p; 
forest = p; 


} 
} 


forest 是 一 个 循环 链表 。 如 果 forest RAZ, forest 指向 链表 中 的 最 后 一 个 节点 ; AM, list 函数 
就 会 将 其 初始 化 。link 域 也 可 以 标识 根 节点 ， 而 list 函数 列 出 的 根 节点 不 会 超过 一 个 。 

比较 操作 符 说 明了 listnodes 函数 的 tlab 和 flab 参数 的 用 法 。tlab 和 flab 中 只 有 一 个 可 以 是 非 
零 值 。 如 果 比 较 操作 的 结果 为 真 ， 则 操作 就 跳 转 到 tlab 标识 的 指令 ; 如 果 比 较 结果 为 假 ， 则 跳 转 
到 flab 标识 的 指令 。 比 较 操作 的 节点 将 目标 作为 标号 放 在 syms[0] 域 中 。 该 标号 就 是 比较 结果 为 
真 时 的 目标 。 结 果 为 假 时 ， 没 有 方法 规定 目标 地 址 。 所 以 ， 当 flab 非 零 时 ,使 用 原 比较 操作 的 首 
操作 作为 比较 操作 。 


(EQ. .LT251)= 248 
Node p; 
1 = listnodes(tp->kids[0], 0, 0); 
r = listnodes(tp->kids[1], 0, 0); 
if (tab) 
list(newnode(tp->op, 1, r, findlabel(tlab))); 
else if (flab) { 
int op = generic(tp->op); 
switch (generic(op)) { 
case EQ: op = NE + optype(tp->op); break; 
case NE: op = EQ + optype(tp->op); break; 
case GT: op = LE + optype(tp->op); break; 
case LT: op = GE + optype(tp->op); break; 
case GE: op = LT + optype(tp->op); break; 
case LE: op = GT + optype(tp->op); break; 
} 
Tist(newnode(op, 1, r, findlabel(flab))); 


if (forest && forest->syms[0]) 
forest->syms[0] ->ref++; 


listnodes 函数 还 要 处 理 只 出 现在 树 中 的 控制 流 操 作 符 : AND. OR, NOT AK COND. NOT 操作 
通过 在 递归 调用 listnodes 函数 时 将 真 、 假 标号 对 调 来 实现 : 


(NOT 251)= ` 248 
return listnodes(tp->kids[0], flab, tlab); 


AND 和 OR 操作 符 使 用 短路 计算 (short-circuit evaluation) 的 方法 来 实现 : 一 旦 结果 确定 就 
马上 停止 计算 。 例 如 ， 语 句 : 


if (i >= 0 & i < 10 && a[i] > max) max = a[i]; 


252 #12F% 


如 果 i 小 于 0 或 者 i 大 于 或 等 于 10，a[ 就 不 用 再 计算 了 。AND 和 OR 的 操作 数 总 是 条 件 表 达 式 
或 常量 (andtree 为 每 一 个 操作 数 调用 cond 函数 )， 所 以 处 理 这 些 操作 符 的 case 分 支 只 要 定义 适当 
的 真 和 假 的 标号 ， 并 在 为 这 些 操作 符 调用 listnodes 函数 时 将 标号 作为 参数 来 传递 。 

假定 tlab 等 于 0 而 flab 等 于 L; WH e,&&e, 生成 的 短路 代码 具有 如 下 形式 : 

if el == 0 goto 工 

if ez == 0 goto L 
换 名 话说， 如 果 e SFO, PB 工 处 继续 执行 而 e 就 不 会 被 计算 。 否 则 ， 计 算 e,， 如 果 6 非 
EA 6, 等 于 0， 也 转 到 工 处 继续 执行 。 仅 当 e File, 都 是 非 零 值 时 控制 才 失 败 。 当 tlab 等 于 L 而 
flab 等 于 0 时 ， WÈ e 或 者 ee 有 一 个 为 0 控制 就 失败 ;只 有 当 e Me, MAA OM, AHF L Ab 
继续 执行 。 生 成 的 代码 具有 如 下 形式 : 


if el == 0 goto L’ 
if ez != 0 goto L 


rs 
对 于 这 种 情况 ， 如 果 e 等 于 0， 则 不 必 计 算 e,， 控 制 就 失败 。 处 理 AND 的 listnodes 代码 如 下 : 
(AND252 )= 248 
if (depth++ == 0) reset(); 
if (flab) { 


listnodes(tp->kids[0], 0, flab); 
listnodes(tp->kids[1], 0, flab); 

} else { 
listnodes(tp->kids[0], 0, flab = genlabel(1)); 
listnodes(tp->kids[1], tlab, 0); 
Tabelnode(flab); 

} 

depth--; 


处 理 OR 的 代码 类 似 ， 参 见 练习 12.2. A 12.15 解释 了 静态 整 型 变量 depth 及 调用 reset 函数 的 
作用 。 
labelnode 函数 将 一 个 LABELYV 节点 添加 到 森林 中 


(dag.c functions) += %1 255 
static void labelnode(lab) int lab; { 
if (forest && forest->op == LABELV) 
equatelab(findlabel (lab), forest->syms[0]); 
else 
list(newnode(LABELV, NULL, NULL, findlabel(lab))); 
resetQ); 
} 


如 果 森 林 的 最 后 一 个 节点 是 标号 ， 就 不 用 添加 另外 一 个 标号 节点 ; 新 的 标号 lab 是 作为 已 存在 标 
号 的 一 个 同义词 (参见 10.9 节 )。 由 于 可 能 有 多 个 路 径 转 到 标号 的 后 续 代 码 ， 节 点 表 中 的 公共 子 
表达 式 必 须 在 标号 处 被 清除 ， 因 此 labelnode 函数 会 调用 reset 函数 。 

正如 8.6 节 中 介绍 的 ，OR 和 AND 被 处 理 为 右 结合 的 操作 符 ， 因 此 ， 如 图 12-2 所 示 ， 类 似 
于 e&&e&&…&&eu 的 表达 式 会 构建 一 个 右 重 (right-heavy) 树 。 
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图 12-2 e; && e, &&…&&en 的 树 


这 样 的 处 理 保证 了 在 上 述 代 码 中 递归 调用 listnodes 函数 时 能 按照 正确 的 顺序 来 访问 表达 式 ei 
以 产生 短路 计算 代码 。 同 时 ， 这 还 有 助 于 清除 出 现在 e 中 的 公共 子 表 达 式 。 例 如 ， 在 下 面 的 语 
句 中 : 

if a[i] && aCi]+b(i] > 0 & a[il+b[i] < 10) .. 
其 中 a 和 b 是 整 型 数组 ， 地 址 计算 4*i, ali] Ml bli] 的 右 值 以 及 alioli] 之 和 都 被 计算 一 次 ， 并 在 
必要 时 重用 。AND 树 被 传递 给 了 listnodes 函数 ， 其 flab 参数 等 于 2， 在 递归 下 降 分 析 树 时 ， 使 用 
2 作为 flab 参数 调用 listnodess 函数 。 中 间 没 有 调用 reset 函数 ， 因 此 第 二 个 和 第 三 个 子 表 达 式 可 
以 重用 第 一 个 和 第 二 个 子 表达 式 的 值 。 这 个 语句 的 森林 如 图 12-3 所 示 。 比 较 操 作 符 下 面 的 2 以 
及 LABELV 下 面 的 2 表示 其 sym [0] 域 中 指向 标号 2 的 符号 表 指 针 。 


ADDP INDIRI 
LSHI ADDRGP 
a 
INDIRI CNSTI ADDRGP 
| 2 b 
ADDRCP 
i 


图 12-3 afi] && ali]+b[i]>0 && ali]+b[i]<10 的 森林 


表达 式 e?l:r 生成 的 COND 树 如 图 12-4 所 示 ， 其 中 RIGHT 树 只 起 到 传递 两 个 赋值 语句 树 的 
作用 。 生 成 的 代码 类 似 于 让 语句 代码 : 
if e = 0 goto L 
tl=l 
goto L+1 
Es thuig 
L+l: 
tl 的 右 值 是 COND 表达 式 的 结果 。 如 果 该 条 件 表达 式 的 值 没有 被 使 用 或 者 1 和 上 都 是 空 表 达 式 ， 
那么 对 的 赋值 就 会 被 忽略 。COND 的 代码 开始 先 为 tl 增加 一 个 LOCAL 代码 表 的 入 口 地 址 ， 


然后 生成 L 和 LH; 接着 遍历 以 工 为 假 标号 的 条 件 表达 式 e。 
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COND 
t1 seis, 
e RIGHT 
ASGN nae 
ADDRL+P L ADDRL+P F 
tl tl 


图 12-4 e?l:r 对 应 的 树 


(COND 254) = 254 248 
Tree q = tp->kids[1]; 
if (tp->u.sym) 
addlocal(tp->u.sym); 
flab = genlabel(2); 
Tistnodes(tp->kids[0], 0, flab); 


reset(); 
接 下 来 的 代码 为 第 一 个 赋值 、 跳 转 、L、 第 二 个 赋值 和 L+1 生成 节点 : 
(COND 254) += 4 254 248 


listnodes(q->kids[0], 0, 0); 
(equate LABEL to L + 1 254) 
list(jump(flab + 1)); 
labelnode(flab) ; 
listnodes(q->kids{1], 0, 0); 
(equate LABEL to L + 1 254) 
labelnode(flab + 1); 


(equate LABEL to L + 1 254)= 254 
if (forest->op == LABELV) { 
equatelab(forest->syms(0], findlabel(flab + 1)); 
unlistQ; 


如 果 两 个 分 支 中 有 某 个 分 支 的 最 后 一 个 节点 是 标号 ， 它 可 能 等 于 LA 并 且 被 unlist 函数 从 森林 中 
删除 。 在 第 一 个 分 支 中 删除 这 个 标号 可 以 删 减 跳 转 到 分 支 的 分 支 ， 参 见 练习 12.7。 

如 果 有 一 个 条 件 表达 式 的 值 ， 它 就 被 存放 在 临时 变量 tl Po COND 树 的 节点 产生 为 t1 赋值 
的 代码 ， 但 是 COND 树 本 身 并 没有 值 。 返 回 的 节点 一 一 代表 了 COND 树 一 一 就 是 为 tl 的 右 值 生 
成 的 节点 : 


(COND 254 ) 十 三 254 248 
if (tp->u.sym) 
p = listnodes(idtree(tp->u.sym), 0, 0); 


在 子 表达 式 中 ， 条 件 操作 数 可 以 在 其 他 操作 数 之 前 计算 ， 所 以 遍历 e 的 树 tp->kids[0] 后 ， 调 
用 reset 函数 在 遍历 1 和 T 之 前 清除 公共 子 表 达 式 。 人 例如， 赋值 语句 : 

n= a[i] + (i>0?a[i]:0); 
尽管 先 遍 历 树 的 左 操作 数 ， 但 条 件 表达 式 仍 在 加 法 的 左 操作 数 之 前 计算 。 由 于 没有 调用 reset K 
数 ， 所 以 当 遍 历 〈 这 02?afil:0 ) 的 树 时 ， 公 共 子 表达 式 alil 的 节点 已 经 在 节点 表 中 ， 生 成 的 代码 
如 下 : 


P fa] AS bg AK 255 


if i <= 0 goto Li 
t2 = afi] 
tI ait 
goto 了 2 
Biz 和 
Lo: ñ= t2 + tl 
其 中 tl 保存 的 是 条 件 表达 式 的 值 ， 而 世 保存 的 是 ali] 的 值 。t2 只 在 条 件 表达 式 的 then 分 支 中 被 
计算 ， 但 是 都 要 使 用 它 来 求 和 。 只 要 计算 顺序 与 遍历 顺序 不 同 ， 或 者 生成 的 代码 可 能 有 多 条 执行 
路 径 ， 就 必须 调用 reset 函数 。 
大 多 数 常量 都 是 作为 一 元 和 二 元 操作 符 的 操作 数 出 现 的 。 但 是 常量 折 释 可 以 使 一 个 整 型 常量 
作为 比较 运算 的 第 一 操作 数 ， 甚 至 用 于 COND。 例如， 语句 : 


aT RZ. SY Si as 


|X conditional 函数 构建 表达 式 2.5 !=0.0, simplify 函数 为 这 样 的 表达 式 产生 一 棵 代表 整 型 常量 
1 的 树 。ifstmt 函数 将 该 树 传递 给 参数 flab 非 零 的 listnodes 函数 。 对 于 一 个 整 型 CNST 树 ， 如 果 
tlab 和 常量 都 是 非 零 值 或 者 flab ERMA ENF, W listnodes 函数 生成 跳 转 : 


(CNST 255 ) 三 255 248 
Type ty = unqual (tp->type); 
if (tlab || flab) { 
if (tlab & tp->u.v.i != 0) 
list (jump(tlab)) ; 
else if (flab && tp->u.v.i == 0) 
list(jump(flab)); 
} 


对 于 上 面 的 例子 让 (2.5 ) …， 没 有 为 CNST 树 生成 任何 东西 ， 这 也 体现 了 程序 员 的 意图 。 对 于 像 
while (1) ... 


一 样 的 代码 就 会 生成 跳 转 。 
对 于 不 出 现在 条 件 上 下 文中 的 常量 ， 除 非 它 们 的 类 型 要 求 它们 应 该 被 消去 ， 和 否则 它们 就 会 生 
成 CNST 节点 : 
(CNST 255) += Bs 248 
else if (ty->u.sym->addressed) 
p= listnodes(cvtconst(tp), 0, 0); 


else 
p = node(tp->op, NULL, NULL, constant(ty, tp->u.v)); 


如 果 某 类 型 的 常量 不 能 出 现在 指令 中 ，typeInit 函数 就 把 它 的 基本 类 型 的 符号 表 入 口 addressed 标 
记 设 置 为 1。 这 样 ， 设 置 了 addressed 标记 的 类 型 的 常量 存放 在 一 个 变量 中 ， 对 该 值 的 引用 就 由 
对 该 变量 右 值 的 引用 代替 。 在 图 1-2 中 的 常量 0.5 就 是 一 个 例子 ; 它 出 现在 树 中 ,但 最 终 在 图 1-3 
中 是 存放 在 一 个 变量 中 的 。 如 果 有 必要 ，cvtconst 函数 会 生成 一 个 匿名 的 静态 变量 ， 并 返回 该 变 
量 的 右 值 树 : 
(dag.c functions) += $2 263 
Tree cvtconst(p) Tree p; { 


Symbol q = constant(p->type, p->u.v); 
Tree e; 
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if (q->u.c.loc == NULL) 
q->u.c.loc = genident(STATIC, p->type, GLOBAL); 
if Cisarray(p->type)) { 
e = tree({ADDRG+P, atop(p->type), NULL, NULL); 
e->u.sym = q->u.c. loc; 
} else 
e = idtree(q->u.c.loc); 
return e; 


} 
编译 结束 时 ，finalize 函数 调用 doconst 函数 对 这 些 变量 进行 初始 化 。 


12.4 ”赋值 语句 


赋值 语句 的 节点 都 会 被 列 出 ， 没 有 返回 值 。 但 是 赋值 语句 的 分 析 树 反映 了 C 语言 中 赋值 的 语 
义 ， 即 返回 它 的 左 操作 数 的 值 。listnodes 函数 处 理 赋值 ( ASGN) 的 case 分 支 遍 历 操作 数 ， 构 建 
并 列 出 赋值 节点 。 首 先 处 理 操作 数 : 
(ASGN 256 ) 三 256 248 
if (tp->kids[0]->op == FIELD) { 
(1,r ~ for a bit-field assignment 257) 
} else { 
1 = listnodes(tp->kids[0], 0, 0); 
r = listnodes(tp->kids[1], 0, 0); 


J 
list(newnode(tp->op, 1, r, NULL)); 
forest->syms[0] = intconst(tp->kids[1]->type->size); 
forest->syms[1] = intconst(tp->kids[1]->type->align); 
ASGN 的 syms 域 指 向 常量 的 符号 表 入 口 ， 这 些 常 量 分 别 给 出 了 值 的 大 小 和 对 齐 方式 。 位 域 的 赋 
值 将 在 下 面 介绍 。 
赋值 语句 使 得 节点 表 中 那些 依赖 于 左 操作 数 的 先前 值 的 节点 失效 5 lce 仅 处 理 两 种 情形 : 
(ASGN 256) += 356 256 248 
if (isaddrop(tp->kids[0]->op) 
&& !tp->kids[0]->u.sym->computed) 
kil] (tp->kids[0]->u.sym); 
else 
reset(); 


如 果 左 操作 数 是 一 个 源 语言 变量 或 者 临时 变量 的 地 址 ， 则 赋值 语句 只 删除 其 右 值 的 节点 。 如 果 左 
操作 数 是 一 个 已 计算 变量 的 地 址 或 者 一 个 已 计算 的 地 址 ， 赋 值 语句 就 清空 节点 表 。 已 计算 的 变量 
表示 变量 的 地 址 加 上 一 个 常量 ， 例 如 域 的 引用 ， 由 addrtree 函数 生成 。 对 已 计算 变量 的 赋值 类 侯 
于 对 数组 元 素 的 赋值 ， 即 对 一 个 元 素 赋值 会 清除 数组 的 所 有 元 素 。 更 精密 的 措施 需要 更 复杂 的 分 
析 ; 那些 带 来 最 多 益处 的 措施 ， 比 如 全 局 公共 子 表达 式 的 删除 ， 就 需要 对 整个 函数 进行 数据 流 分 
BT, loc 的 设计 并 没有 提供 这 些 功 能 。 

赋值 语句 的 值 就 是 其 左 操作 数 的 新 值 ， 而 左 操作 数 的 新 值 可 能 是 对 右 操 作 数 的 值 进行 转换 后 
得 到 的 ， 所 以 listnodes 函数 对 表示 ASGN 树 的 节点 进行 了 注释 : 


(ASGN 256) += %56 248 
p = listnodes(tp->kids[1], 0, 0); 
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tp->kids[1] 已 经 被 访问 过 ， 它 表示 前 面 赋 值 给 r 的 节点 。 因 此 通常 等 于 f， 对 位 域 的 赋值 是 例 
外 。 在 位 域 赋值 中 ， 对 r 的 计算 有 所 不 同 ， 也 根本 不 会 访问 tp->kids[1]， 下 面 将 详细 介绍 。 

作为 ASGN 树 的 左 操 作 数 的 FIELD 树 标识 了 对 位 域 的 赋值 。 对 位 域 的 赋值 被 编译 成 适当 的 
移 位 和 位 逻辑 操作 序列 。 例 如 ， 考 虑 多 重 赋值 w= x.amt=y， 其 中 x 在 图 11-1 PEM, wy 
全 局 整 型 变量 。 第 一 条 赋值 x.amt=y 被 编译 为 如 下 等 式 : 

*B = ((*B)&OxFFFFFFF80) | (Cy&Ox7F) ; 
B 表 示 地 址 x+16。 读 取 x+16 单元 保存 的 字 ， 清 除 对 应 于 amt 域 的 位 ， 这 些 清 除 的 位 和 y 的 最 
H 7 位 进行 或 运算 ， 结 果 存 回 x+16 单元。 这 个 表达 式 不 是 很 准确 : 赋 给 w 的 值 ， 即 x.amt=y 的 
值 ， 不 是 y 的 值 ， 而 是 x.amt 的 新 值 。 该 值 一 般 等 于 y， 除 非 它 的 最 高 有 效 位 是 1。 如 果 最 高 有 
效 位 等 于 1， 且 赋值 语句 的 结果 将 被 使 用 ， 该 位 就 必须 按 符号 扩展 。 即 如 果 y 等 于 255， 则 w 等 
F mie 

listnodes 函数 通过 构建 一 棵 ASGN 树 来 处 理 这 种 多 重 赋值 语句 ， 该 ASGN 树 的 右 操作 数 用 
来 计算 正确 的 值 。 对 语句 : w=x.amt=y, listnodes 函数 构建 的 右 操作 数 是 (y<<25) >>25， 这 也 就 
是 应 当 出 现在 上 面 对 *B 赋值 的 y 位 置 上 的 值 。 图 12-5 给 出 了 这 个 多 重 赋值 语句 完整 的 树 。 


ASGN+I 
ADDRG+P ASCN+I 
w 
FIELD RSH+I 
INDIR+I LSH+I  CNST+I 


25 


ADDRC+P INDIR+I CNST+I 
x+16 25 


ADDRG+P 
y 


图 12-5 语句 w=x.amt=y 的 树 
位 域 赋值 的 处 理 代码 ， 将 为 上 面 的 表达 式 构建 一 棵 树 并 调用 listnodes 函数 来 遍历 该 树 。 


(1,r ~ for a bit-field assignment257)=s 256 

Tree x = tp->kids[0]->kids[0]; 

Field f = tp->kids[0]->u.field; 

reset(); 

7 = listnodes(livalue(x), 0, 0); 

if (fieldsize(f) < 8*f->type->size) { 
unsigned int fmask = fieldmask(f); 
unsigned int mask = fmask<<fieldright(f); 
Tree q = tp->kids[1]; 
(q 一 the r.h.s. tree 258) 
r = listnodes(q, 0, 0); 

} else 
r = listnodes(tp->kids[1], 0, 0); 
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在 ASGN 树 下 层 的 FIELD 子 树 的 usym 域 ， 指 向 了 描述 该 位 域 的 field 结构 。 对 于 amt bh, fmask 
和 mask 都 是 7F,。; mask 的 补 码 是 FEFEFFFFF80,。。listnodes 函数 对 位 域 赋值 语句 的 处 理 类 似 于 对 
数组 元 素 赋值 语句 的 处 理 ， 也 清空 节点 表 。 

当 将 常量 赋值 给 位 域 时 ， 有 两 种 情况 需要 进行 特殊 处 理 。 如 果 常 量 值 等 于 0， 赋 值 语句 就 清 
空域 ， 这 可 以 通过 将 该 字 同 mask 的 补 码 进行 与 操作 来 实现 : 


(q ~ the r.h.s. tree258)= 258 257 
if (q->op == CNST+I && q->u.v.i == 0 
|] q->op == CNST+U && g->u.v.u == 0) 

q = bittree(BAND, x, consttree(~mask, unsignedtype)); 


如 果 常 量 值 等 于 2 一 1 (这 里 s 表示 位 域 的 大 小 )， 赋 值 语 句 就 会 设置 该 域 的 所 有 位 ， 这 可 以 通过 将 
该 字 同 mask 进行 或 操作 来 实现 : 
(q — the r.h.s. tree258) += 28 258 257 
else if (q->op == CNST+I && (q->u.v.i&fmask) == fmask 
lI q->op == CNST+U && (q->u.v.u&fmask) == fmask) 
q = bittree(BOR, x, consttree(mask, unsignedtype)); 

这 些 改进 使 得 给 1 HCCI aS E(B I BES Zee i PE BG, WAE A x.used=1 被 编 
译 为 下 面 的 等 式 : 


*a = *a | 0x8; 


这 里 a 表示 地 址 x+12。 
一 般 情 况 下 需要 两 个 AND 运算 和 一 个 OR 运算 ， 如 第 257 页 对 *B 的 赋值 。 
(q ~ the rhs. tree258)+= 258 257 
else { 


listnodes(q, 0, 0); 
q = bittree(BOR, 
bittree(BAND, rvalue(lvalue(x)), 
consttree(~mask, unsignedtype)), 
bittree(BAND, shtree(LSH, cast(q, unsignedtype), 
consttree(fieldright(f), inttype)), 
consttree(mask, unsignedtype))); 
} 


图 12-6 给 出 了 多 重 赋值 语句 w=x.amt=y 的 森林 ， 这 属于 一 般 情 况 。 在 所 有 3 种 情况 中 ，q 是 位 域 
赋值 语句 右 方 的 子 树 ， 而 tp->kids[]] 表示 赋值 语句 的 值 。 例 如 , 图 12-6 中 的 RSHI 节点 表示 的 是 
图 12-5 中 位 域 ASGN+I 树 ， 这 样 它 就 用 作对 w 赋值 的 右 操作 数 。 

在 <q < the rh.s tree> 中 的 最 后 一 个 else 子 句 对 存放 该 域 的 字 的 右 值 进行 了 重新 构建 ， 因 为 
该 字 可 能 已 经 被 pp->kids[] 改变 了 。 例 如 : 


struct { int b:4, c:4; } x; 
X.C = X,.b++; 


在 上 面 的 语句 中 ，x.b++ 改变 了 保存 x. c 的 字 。 作 为 被 bittree 的 第 二 个 参数 返回 的 树 ， 上 面 代码 
SRP AY rvalue(lvalue(x)) 使 得 该 字 被 重新 读 取 。 如 果 用 的 是 x， 则 对 xc 的 赋值 就 会 使 用 x.b 被 改 
变 之 前 该 字 的 值 ，x.b 的 新 值 将 会 丢失 。 
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图 12-6 语句 w=x.amt=y 的 森林 图 


12.5“ 函 数 调用 
图 12-7 给 出 了 CALL+B 树 的 形式 ， 这 是 CALL 最 通用 的 形式 。 其 中 ， 右 操作 数 是 保存 返回 
值 的 临时 变量 的 地 址 。 其 他 的 CALL 只 有 一 个 操作 数 。 人 参见 9.3 节 。 


CALL+B 


RIGHT ADDRL+P 


图 12-7 f(e,e,...,.e,) 的 分 析 树 ， 其 中 人 返回 一 个 结构 


CALL+B 使 得 listnodes 函数 对 CALL 的 处 理 更 加 复杂 。 如 果 接 口 标志 wants_callb 等 于 0， 
则 右 操作 数 会 作为 隐 含 的 第 一 个 操作 数 传递 ， 使 用 CALLV 节点 而 不 是 .CALLB 节点 。 男 一 个 使 
CALL 的 处 理 复杂 化 的 原因 是 ARG 子 树 可 以 出 现在 CALL 树 左 操作 数 的 下 面 ， 但 是 相应 的 节点 
又 在 列表 中 ， 且 CALL 节点 的 左 操作 数 是 函数 的 地 址 ( 见 5.5 节 )。 最 后 ， 接 口 标志 left_to_right 
也 使 listnodes 复杂 化 ， 如 果 该 标志 等 于 1， 则 从 左 到 右 计算 参数 ; 如 果 该 标志 为 0， 则 是 从 右 到 
左 计 算 参 数 。 当 wants_callb 等 于 0 时 ， 这 种 计算 顺序 也 适用 于 隐 含 的 第 一 个 参数 。 图 12-8 给 出 
了 当 wants_callb 等 于 0 且 1left to right 等 于 1 时 ， 图 12-7 中 的 树 所 生成 的 森林 。 第 一 个 ARGP 
节点 就 是 隐 含 的 第 一 个 参数 。 
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图 12-8  f(e,,e2,...,€,) 的 森林 ， 其 中 人 返回 一 个 结构 


listnodes 函数 处 理 CALL 的 case 分 支 代码 如 下 : 


(CALL 260 ) 三 248 
Tree save = firstarg; 
firstarg = NULL; 
if (tp->op == CALL+B && !IR->wants_callb) { 
(list CALL+B arguments 260) 
p = newnode(CALLV, 1, NULL, NULL); 
} else { 
1 = listnodes(tp->kids[0], 0, 0); 
r = listnodes(tp->kids[i], 0, 0); 
p = newnode(tp->op, 1, r, NULL); 
} 
list(p); 
reset(); 
cfunc->u. f.ncal1s++; 
firstarg = save; 


(dag.c data) += 345 268 
static Tree firstarg; 

MRA YS, firstarg 传递 隐 含 的 第 一 个 参数 的 树 。 代 码 段 首先 保存 firstarg 并 将 其 重新 初始 化 为 
空 ， 在 代码 段 末 尾 将 其 恢复 ， 使 包含 其 他 调用 的 参数 不 会 覆盖 它 。 一 个 调用 总 会 被 列 出 ， 它 会 删 
除 节点 表 中 的 所 有 节点 。 函 数 符号 表 入 口 的 ncalls 域 记 录 了 该 函数 所 执行 的 CALL 的 次 数 。 这 个 
值 为 接口 过 程 function 提供 了 第 四 个 参数 ，function 由 funcdefn 函数 调用 。 

如 图 12-7 所 示 ，tp->kids[0] 是 一 棵 RIGHT 树 ， 该 树 保存 了 参数 和 函数 地 址 树 。 遍 历 这 棵 树 
就 会 列 出 所 有 参数 并 返回 函数 地 址 的 节点 ， 该 节点 成 为 CALL 节点 的 左 操作 数 。 

对 于 CALL+B 树 ， 将 代表 隐 含 的 第 一 个 参数 的 树 赋值 给 firstarg: 


(list CALL+B arguments 260)= 260 
Tree arg0 = tree(ARG+P, tp->kids[1]->type, 
tp->kids[1], NULL); 
if CIR->left_to_right) 
firstarg = arg0; 
1 = listnodes(tp->kids[0], 0, 0); 
if (!IR->left_to_right || firstarg) { 
firstarg = NULL; 
listnodes(argO, 0, 0); 


如 果 left to right 等 于 1， 则 当 listnodes 函数 遍历 tp->kids[0] 时 ， 在 参数 被 访问 之 前 需要 先 使 用 
firstarg 得 到 隐 含 的 第 一 个 参数 的 树 ， 以 便 隐 含 参数 在 其 他 参数 之 后 被 列 出 。 当 left to right 等 于 
0 时 ， 隐 含 参 数 总 是 被 最 后 列 出 ， 因 此 不 需要 使 用 firstarg。 
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如 果 left to right 等 于 1 A firstarg 非 空 ， 上 面 代 码 的 最 后 一 个 站 语 句 也 会 遍历 隐 含 参数 的 
树 。 例 如 ， 调 用 一 个 返回 结构 且 没 有 参数 的 函数 就 会 出 现 这 种 情况 。 在 这 种 情况 下 ， 对 于 该 函数 
调用 ，tp->kids[0] 中 没有 包含 ARGH, firstarg 就 不 会 已 经 被 ARG 代码 所 遍历 。 

当 从 左 到 右 分 析 参 数 时 ， 会 构建 一 棵 ARG 子 树 ， 最 右 的 参数 作为 ARG 子 树 的 根 ， 如 图 
12-7 所 示 。 通 过 在 访问 tp->kids[0] 之 前 访问 tp->kids[1], ARG 节点 可 以 从 左 到 右 被 一 一 列 出 ; 通 
过 其 他 顺序 访问 操作 数 则 按照 从 右 到 左 的 顺序 将 ARG 节点 列 出 。 


(ARG 261 ) 三 248 
if CIR->left_to_right) 
listnodes(tp->kids[1]}, 0, 0); 
if (firstarg) { 
Tree arg = firstarg; 
firstarg = NULL; 
listnodes(arg, 0, 0); 


} 
1 = listnodes(tp->kids(0], 0, 0); 
list(newnode(tp->op, 1, NULL, NULL)); 
forest->syms[0] = intconst(tp->type->size) ; 
forest->syms[1] = intconst(tp->type->align) ; 
if C!IR->left_to_right) 
listnodes(tp->kids[1], 0, 0); 
与 ASGN 节点 类 似 ，ARG 节点 的 syms 域 也 指向 常量 的 符号 表 和 人口 ， 这 些 常量 分 别 给 出 了 参数 的 
大 小 和 对 齐 方式 。 
当 left to_right 标记 等 于 1 时 ， 第 一 次 执行 到 测试 frstarg 的 时 机 就 是 在 转换 第 一 个 参数 的 
ARG 树 时 ， 即 图 12-7 Fe, 所 对 应 的 ARG 被 遍历 时 。 如 果 firstarg 非 空 ， 它 就 会 在 第 一 个 参数 的 
树 之 前 被 列 出 ， 且 firstarg 被 重新 设置 为 室 ， 这 样 就 保证 了 它 只 被 转换 一 次 。 


12.6 ”强制 计算 顺序 


在 标准 C 中 只 有 少数 操作 规定 了 计算 顺序 。 标 准 C 规定 了 AND 和 OR 操作 为 短路 计算 ， 规 
定 COND 操作 遵循 通常 站 语句 的 计算 方式 。 逗 号 操作 符 的 左 操 作 数 必须 在 右 操作 数 之 前 计算 。 
lcc 用 树 (RIGHT e,，e, ) 来 表示 表达 式 e/，e,， 所 以 对 于 RIGHT 树 ，Iistnodes 函数 首先 计算 左 操 
作 数 ， 然 后 计算 并 返回 右 操 作 数 : 


(RIGHT 261 )= 248 
if ((tp is a tree for e++263)) { 
(generate nodes for e++ 263) 
} else if (tp->kids[1]) { 
listnodes(tp->kids[0], 0, 0); 
p = listnodes(tp->kids[1], tlab, flab); 
} else 
p = listnodes(tp->kids[0], tlab, flab); 


正如 第 8 章 、 第 9 章 及 上 面 的 代码 所 介绍 的 ，RIGHT 树 并 不 仅仅 用 于 逗号 操作 符 ， 它 可 能 
有 一 个 或 者 两 个 操作 数 。RIGHT 树 的 值 就 是 它 的 最 右 操作 数 的 值 。 

例如 ，RIGHT 树 可 以 用 来 展开 髓 套 调 用 ， 即 将 函数 调用 作为 参数 的 函数 调用 。call 函数 将 所 
有 这 样 的 参数 提升 为 RIGHT 树 的 左 操作 数 ， 这 样 它们 就 能 在 ARG 树 (参数 出 现在 ARG 中 ) 之 
前 被 列 出 。 图 12-9 给 出 了 flei,g(e,),e;) 的 树 。 
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图 12-9 el,g(ez),ei) 的 树 


将 该 图 与 图 12-7 做 比较 可 以 发 现 ， 图 12-9 中 操作 数 作为 一 个 额外 的 RIGHT 节点 的 右 操作 
数 出 现 ， 而 该 RIGHT 节点 用 阴影 标识 ， 它 的 左 操作 数 就 是 内 套 调用 gle) 的 树 。f 函数 的 第 二 个 
ARG 节点 引用 了 调用 g 的 值 。 

在 12.5 节 描 述 的 处 理 CALL 的 代码 中 ，listnodes 函数 遍历 这 棵 树 。 当 最 上 面 的 CALL 唯一 的 
左 操 作 数 被 转换 时 ，RIGHT 树 使 得 对 g 的 嵌 套 调用 在 f 的 所 有 参数 之 前 被 遍历 和 列 出 。 图 12-10 
给 出 了 结果 森林 。 


ARG ~ 20% » CALL -~--- » ARG - - - -- RGI RA- a: > CALL 


图 12-10 f(e;,g(€2),es) 的 森林 


RIGHT 树 也 用 来 强制 实现 表达 式 e++ 和 e-- 的 正确 语义 。 图 12-11 给 出 了 postfix 函数 为 计 + 
构建 的 树 。 这 些 RIGHT 节点 合作 以 实现 在 增加 i 之 前 返回 i 的 值 ， 但 是 实现 并 不 容易 。 为 了 强制 
先 计算 INDIR+I， 在 对 i 的 赋值 之 前 ， 遍 历 该 树 ， 在 森林 中 必须 列 出 它 的 节点 ， 并 且 该 节点 必须 
表示 为 RIGHT 树 。 列 出 这 个 INDIR 节点 就 是 图 12-11 中 下 层 RIGHT 节点 表示 的 需要 特殊 处 理 的 
RIGHT 用 法 。 


RIGHT 





INDIR+I ASGN+I 
ADDRG+P ADD+1I 
i 
CNST+I 
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图 12-11 i++ 的 树 
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(tp is a tree for e++ 263) = 261 
tp->kids[0] && tp->kids[1] 
&& generic(tp->kids[1]->op) == ASGN 
&& (generic(tp->kids[0]->op) == INDIR 
&& tp->kids[0]->kids[0] == tp->kids[1]->kids[0] 
|| (tp->kids[0]->op == FIELD 
&& tp->kids[0] == tp->kids[{1]->kids[0])) 
这 段 测试 代码 表明 ， 对 于 一 个 位 域 的 后 自 增 或 后 自 减 操作 ， 是 用 FIELD 节点 代替 INDIR 节点 ， 
mi HIZ FIELD 节点 是 赋值 的 目标 。 
当 6 不 是 一 个 位 域 时 ， 遍历 INDIR 树 ， 其 节点 在 遍历 RIGHT 树 的 第 二 个 参数 之 前 被 列 出 。 
(generate nodes fore++ 263)= 263 26l 
if (generic(tp->kids[0]->op) == INDIR) { 
p = listnodes(tp->kids[0], 0, 0); 
list(p); 
listnodes(tp->kids[1], 0, 0); 
} 
图 5-3 给 出 了 赋值 语句 二 *p++ 的 森林 。 计 算 p 的 右 值 的 INDIR 节点 出 现在 对 p 的 赋值 之 前 。 
位 域 的 处 理 需要 解决 的 问题 很 多 。 因 为 在 dag 中 没有 FIELD 节点 ，FIELD 操作 符 只 在 树 中 
出 现 ，listnodes 函数 不 能 列 出 FIELD 节点 。 相 反 ，listnodes 函数 必须 在 FIELD 树 下 面 找到 读 取 位 


域 所 在 字 的 INDIR 树 ， 然 后 遍历 该 树 并 列 出 它 的 节点 : 


(generate nodes for e++263)+= 263 7 61 
else { 
list(listnodes(tp->kids[0]->kids[0], 0, 0)); 
= listnodes(tp->kids[0J, 0, 0); 
listnodes(tp->kids[{1}, 0, 0); 
} 


12.7 ”驱动 代码 生成 


一 旦 函数 的 代码 表 完成 ，funcdefn 函数 就 调用 接口 过 程 function 来 生成 和 发 送 代 码 。5.10 市 
介绍 了 function 接口 函数 在 编译 前 端 进行 的 两 次 函数 调用 : 调用 gencode 函数 生成 代码 ， 然 后 调 
用 emitcode 函数 发 送 它 所 生成 的 代码 。 每 个 函数 都 扫描 代码 表 ， 对 每 一 个 代码 表 入 口 调用 相应 的 
接口 函数 。 

funcdefin 函数 会 构建 两 个 指向 符号 表 入 口 的 指针 数组 .callee 数组 保存 函数 内 部 所 见 的 参数 ， 
caller 数组 保存 的 是 函数 调用 者 所 见 的 参数 。 这 些 数 组 被 传递 给 function 函数 ，function 又 将 它们 
传递 给 gencode PR: 


(dag.c functions) += 255 265 
void gencode(caller, callee) Symbol caller[], callee[]; { 
Code cp; 


Coordinate save; 


save = src; 
(generate caller to callee assignments 264) 
cp = codehead.next; 


264 #12 ¥ 


for ( ; errcnt <= 0 && cp; cp = cp->next) 
switch (cp->kind) { 
case Address: (gencode Address 265) break; 
case Blockbeg: (gencode Blockbeg 264) break; 

-© case Blockend: (gencode Blockend 265) break; 
case Defpoint: src = cp->u.point.src; break; 
case Gen: case Jump: 
case Label: . (gencode Gen, Jump,Label 265) break; 
case Local: (*IR->1local) (cp->u.var); break; 
case Switch: break; 


src = save; 


这 里 需要 对 sro 进行 赋值 ， 使 得 在 代码 生成 时 进行 的 诊断 能 够 包含 错误 表达 式 的 位 置 。 

在 对 代码 表 扫 描 一 遍 之 前 ，gencode 函数 检查 caller 数组 和 callee 数组 中 的 符号 。 对 于 大 多 数 
函数 ， 这 些 数组 中 的 符号 描述 了 相同 的 变量 。 然 而 ， 对 于 字符 和 短 整 型 参数 ， 编 译 前 端 会 将 它们 
提升 为 整数 或 无 符号 整数 ; 5.5 节 曾 给 出 了 这 种 情况 的 一 个 例子 。 当 这 种 提升 发 生 时 ，caller 符号 
类 型 与 callee 符号 类 型 就 不 同 了 ，gencode 函数 必须 生成 将 caller 赋值 给 callee 的 赋值 指令 。 如 果 
caller 和 callee 的 存储 类 型 不 同 ， 也 要 生成 这 类 赋值 ， 例 如 当 编 译 后 端 为 遵循 目标 机 器 的 调用 约 
定 而 改变 了 caller 或 者 callee 的 存储 类 型 时 ， 就 会 发 生 这 种 情况 。 

这 些 赋值 指令 改变 了 代码 表 ， 它 们 必须 插入 函数 体 的 第 一 个 入 口 之 前 。 


(generate caller to callee assignments 264)= 263 


int i; 
Symbol p, q; 
cp = codehead.next->next; 
codelist = codehead.next; 
for (i = 0; (p = callee[i]) != NULL 
&& (q = caller[i]) != NULL; i++) 
if (p->sclass != q->sclass || p->type != q->type) 
walk(asgn(p, idtree(q)), 0, 0); 
codelist->next = cp; 
cp->prev = codelist; 
Ms 


在 循环 语句 之 前 对 codehead 和 codelist 进行 处 理 的 代码 将 代码 表 分 为 两 部 分 : codelist 指向 代码 表 
唯一 的 Start 人 口 ， 而 cp 指向 代码 表 的 其 余部 分 。 调 用 walk 函数 将 每 一 个 上 述 赋 值 指令 添加 到 
codelist 指针 所 指向 的 代码 表 中 。 赋 值 指令 添加 完 后 ，cp 指向 的 代码 表 的 其 余部 分 重新 连接 在 后 
面 。 对 代码 表 的 这 些 操作 与 在 10.7 节 的 用 法 类 似 ， 如 图 10-2 所 示 ， 在 恰当 的 位 置 为 switch 语句 
插入 选择 指令 代码 。 

Blockbeg 和 Blockend 代码 表 入 口 通知 源 代码 中 复合 语句 的 开始 和 结束 。 


(gencode Blockbeg 264)= 264 
{ 
Symbol *p = cp->u.block. locals; 
(*IR->blockbeg) (&cp->u. block. x); 
for C ; *p; p++) 
if ((*p)->ref != 0.0) 
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(*IR->1ocal) (*p); 
} 


(gencode Blockend 265)= 264 
(*IR->blockend) (&cp->u.begin->u. block. x); 
与 代码 块 相关 的 Env 值 的 地 址 被 传递 给 接口 函数 blockbeg 和 blockend。 编 译 后 端 可 以 用 这 个 值 来 
存储 那些 必须 在 语句 块 结束 后 恢复 的 值 。 例 如 忙 寄 存 器 组 和 帧 偏 移 量 。 

Blockbeg 入 口 包 含 一 个 指针 数组 ， 每 个 指针 都 指向 块 中 声明 的 局 部 变量 的 符号 表 人 口 。 这 些 
局 部 变量 是 由 接口 函数 local 通知 的 。 其 他 局 部 变量 ， 比 如 临时 变量 ， 出 现在 Local 入 口中 ， 与 上 
面 一 样 由 local 声明 。 

Address 人 口传 递 必 要 的 信息 ， 以 定义 那些 依赖 局 部 变量 或 参数 地 址 的 符号 和 由 address 函数 
创建 的 符号 。 这 些 符号 通过 调用 接口 函数 address 通知 : 

(gencode Address 265 ) 三 264 

(*IR->address) (cp->u.addr.sym, cp->u.addr.base, 
cp->u.addr.offset) ; 

对 于 局 部 变量 来 说 ， 这 些 入 口 在 代码 表 中 位 于 Blockbeg 或 Local AH 2 Ja, Blockbeg 或 
Local 入 口传 递 它们 所 依赖 的 符号 。 一 旦 后 面 这 些 符号 被 通知 给 编译 后 端 ， 接 口 函数 address 就 会 
被 调用 ， 并 在 Address 入 口 定义 符号 。 这 些 入 口 也 可 以 定义 依赖 已 通知 的 参数 的 符号 。 

Gen, Jump 和 Label 入 口 分 别 负责 传递 表示 表达 式 、 跳 转 和 标号 定义 的 代码 的 森林 。 这 些 森 
林 被 传递 给 接口 函数 gen: 


(gencode Gen,Jump,Label 265)= 264 
if (IIR->wants._dag) 
cp->u.forest = undag(cp->u.forest); 
fixup(cp->u.forest); 
cp->u.forest = (*IR->gen) (cp->u.forest); 
gen 返回 一 个 指向 节点 的 指针 。 通 常 ，gen 注释 forest 中 的 节点 ， 也 可 能 重新 组 织 并 返回 森林 ， 但 
是 gen 也 可 以 返回 其 他 信息 ， 只 要 这 些 信 息 可 以 表示 为 指向 节点 的 指针 。 对 于 森林 中 的 指令 ， 本 
书 所 有 的 编译 后 端 都 返回 一 个 指向 节点 列表 的 指针 。 如 果 gen 的 返回 值 为 空 ， 就 不 会 调用 接口 函 
数 emit， 这 将 在 下 面 介 绍 。 
正如 上 一 节 所 介绍 的 ， 在 Gen 入 口中 的 森林 可 以 含有 被 多 次 引用 的 节点 ， 因 为 它们 表示 的 
是 公共 子 表 达 式 。 如 果 接 口 标志 wants dag 等 于 1，gen 就 会 传递 这 种 类 型 的 节点 。 然 而 ， 如 果 
wants dag 等 于 0，undag 函数 就 会 生成 把 公共 子 表达 式 存储 在 临时 变量 中 的 赋值 指令 ， 并 用 对 临 
时 变量 的 引用 替换 对 计算 表达 式 节 点 的 引用 。 这 将 在 12.8 节 详 细 介绍 。 
比较 操作 符 和 跳 转 的 syms[0] 域 指向 标号 在 符号 表 中 的 人 口 。 这 些 标号 可 能 是 真正 标号 的 同 
名 标号 ， 这 在 10.9 节 已 经 介绍 过 。fixup 函数 查找 这 些 节 点 ， 并 将 其 syms[0] 域 指向 真正 的 标号 。 
(dag.c functions)+= 263 266 
static void fixup(p) Node p; { 
for C ; p; p = p->link) 
switch (generic(p->op)) { 
case JUMP: 
if (p->kids(0]->op == ADDRG+P) 
p->kids[0]->syms[0] = 
equated(p->kids[0]->syms[0]); 
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break; 
case EQ: case GE: case GT: case LE: case LT: case NE: 
p->syms[0] = equated(p->syms[0]); 


} 
Æ equatelab 函数 使 得 Li 作为 L, 的 同名 标号 ， 就 设置 L 符号 表 入 口 的 ul.equatedto A L, 的 符 
SRAM. equated 函数 沿 着 由 该 域 构成 的 符号 表 进行 搜索 ， 如 果 存 在 ， 在 表 的 最 后 就 会 找到 真 
正 的 标号 : 
(dag.c functions) += 265 266 
static Symbol equated({p) Symbol p; { 
while (p->u.1.equatedto) 
p = p->u.1].equatedto; 
return p; 
} 
JUMP 和 比较 操作 符 总 是 作为 根 节 点 出 现 ， 因 此 只 有 在 森林 的 根 节 点 fixup 函数 才 需 要 进行 
检查 。 
— FL gencode MAGE], HEE function 就 获得 了 它 需 要 的 所 有 信息 ， 如 帧 的 大 小 和 已 使 
用 寄存 器 的 数目 ， 以 此 来 生成 函数 的 头 代 码 。 当 它 准备 发 送 已 生成 的 代码 时 ， 它 就 调用 emitcode 
函数 : 


站 a 
(dag.c functions) += 266 268 
void emitcode() { 
Code cp; 


Coordinate save; 


save = src; 

cp = codehead.next; 

for ( ; errcnt <= 0 && cp; cp = cp->next) 
switch (cp->kind) { 
case Address: break; 
case Blockbeg: (emitcode Blockbeg) break; 
case Blockend: (emitcode Blockend) break; 
case Defpoint: (emitcode Defpoint 266) break; 
case Gen: case Jump: 


case Label: (emitcode Gen, Jump,Label 267) break; 
case Local: (emitcode Local) break; 
case Switch: (emitcode Switch 267) break; 
} 
src = save; 
} 
(emi tcode Defpoint 266)= 266 


src = Cp->u.point.src; 


Defpoint, Blockbeg, Blockend 和 Local 的 代码 表 和 人 口 并 不 发 送 代码 。 但 是 ， 如 果 指 定 了 1lcc 的 -g 
选项 ， 就 会 调用 stab 接口 函数 为 调试 器 发 送 符号 表 信息 。 

Gen, Jump 和 Label 入 口 存 放 了 由 接口 函数 gen 返回 的 森林 ，emitcode 函数 将 非 空 森林 传 给 
emit 接口 函数 : 
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(emitcode Gen, Jump, Label 267)= 266 
if (cp->u. forest) 
(*IR->emit) (cp->u. forest) ; 


Switch 代码 表 入 口 存放 了 由 swcode 函数 生成 的 switch 语 句 的 分 支 表 。 这 些 和 人 口中 的 
u.swtch.values 和 u.swtch.labels 数组 保存 了 数目 为 u.swtch.size 的 值 一 标号 对 ， 这 些 值 - 标 号 对 就 
构成 了 分 支 表 。emitcode 函数 为 分 支 表 生成 一 个 全 局 变量 ， 该 全 局 变量 的 符号 表 人 和 人口 在 uswtch. 
table 域 中 ， 同 时 还 将 该 分 支 表 初 始 化 为 标号 对 应 的 地 址 。 

(emitcode Switch 267)= 266 
{£ intis 

unsigned k = cp->u.swtch.values[0]; 

defglobal(cp->u.swtch.table, LIT); 

for (i = 0; i < cp->u.swtch.size; i++, k++) { 
for ( ; k < Cunsigned)cp->u.swtch.vatues[i]; k++) 

(*IR->defaddress) (equated(cp->u.swtch.deflab)); 

(*IR->defaddress) (equated(cp-~>u.swtch. labels[i])); 


} 
swtoseg(CODE) ; 
} 
JE u.swtch.values il u.swtch.labels 中 的 值 -标号 对 按照 值 的 升序 排列 。 但 这 些 值 可 能 不 是 连续 的 。 
没有 的 值 使 用 uswtch.deflab 的 默认 标号 。 


12.8 删除 多 次 引用 的 节点 


编译 前 端 构建 分 析 树 ， 其 中 有 一 些 树 是 dag。listnodes 函数 获得 这 些 树 并 构建 dag， 这 样 就 可 
以 清除 公共 子 表达 式 。 这 一 节 将 介绍 undag 函数 ， 它 接受 dag 并 将 其 变换 成 合适 的 树 ， 尽 管 变换 
结果 仍然 称 为 dag。 由 于 lee 对 相关 术语 的 不 恰当 滥用 ， 我 们 最 好 记 住 “ 树 ”表示 编译 前 端 建立 
和 处 理 的 中 间 表 示 ， 而 “dag ”表示 传递 给 后 端 并 由 后 端 处 理 的 中 间 表 示 。 

我 们 可 以 删除 listnodes 函数 ， 但 是 这 也 将 会 牺牲 公共 子 表 达 式 的 删除 ， 而 删除 公共 子 表达 式 
对 于 生成 的 代码 的 质量 有 重要 的 影响 。lcc 早期 版 本 采用 的 就 是 相反 的 做 法 : 编译 前 端 直接 构建 
dag。 因 为 dag 使 得 代码 的 转换 (例如 ，simplify 函数 执行 的 转换 ) 更 加 复杂 ， 也 使 得 维护 引用 次 
数 的 工作 容易 出 错 ， 目 前 的 方案 已 经 放弃 了 这 种 做 法 。 

对 于 表示 公共 子 表达 式 的 节点 ， 在 同一 个 森林 中 至 少 有 两 个 其 他 节点 的 kids 数组 元 素 指向 
它 ， 它 的 count 域 记 录 了 指向 它 的 指针 的 个 数 。 编 译 后 端 可 以 将 通过 接口 函数 gen 传递 来 的 森林 
的 每 个 dag 直接 转换 生成 代码 。 但 这 些 多 次 引用 的 节点 一 般 会 使 代码 生成 特别 是 寄存 器 分 配 复杂 
化 。 因 此 ， 一 些 编译 器 就 删除 了 这 些 节 点 ， 这 种 工作 可 由 编译 前 端 完成 ， 也 可 以 由 代码 生成 器 完 
成 。 编 译 器 生成 了 将 它们 的 值 赋 给 临时 变量 的 代码 ， 并 且 把 对 它们 节点 的 引用 替换 成 对 临时 变量 
的 引用 。 在 12.7 节 中 曾 提 及 ， 将 接口 标志 wants dag 设置 为 0， 会 使 lee 的 编译 前 端 生成 这 类 赋 
值 指令 ， 从 而 删除 多 次 引用 的 节点 。 如 果 wants dag 的 值 等 于 0， 编译 前 端 也 为 CALL 的 返回 值 
生成 赋值 语句 ， 即 使 它们 只 被 引用 一 次 ， 因 为 列 出 CALL 节点 就 导致 代码 表 的 一 个 隐 式 引用 。 本 
书 中 所 有 的 代码 生成 器 都 设置 wants_dag 为 0。 

在 将 森林 传递 给 接口 函数 gen 之 前 ，gencode 为 代码 表 中 的 每 一 个 森林 调用 undag 函数 。 
undag 函数 构建 并 返回 一 个 新 的 森林 ， 当 undag 访问 老 森 林 中 的 每 一 个 节点 时 ,将 增加 必要 的 赋 
值 语句 到 新 森林 。 


ee TS 


(dag.c data) += 260 
static Node *tail; 7 
(dag.c functions) += 266 269 
static Node undag(forest) Node forest; { 
Node p; 


tail = &forest; 
for (p = forest; p; p = p->link) 
if (generic(p->op) == INDIR 
|| iscall (p) && p->count >= 1) 
visit(p, 1); 
else { 
visit(p, 1); 
*tail = p; 
tail = &p->link; 


} 
*tail = NULL; 
return forest; 


} 
站 语句 的 两 个 分 支 分 别处 理 那 些 在 新 森林 中 不 作为 根 节点 出 现 的 节点 以 及 作为 根 节点 出 现 的 节 
点 。 列 出 的 INDIR 节点 以 及 被 其 他 节点 引用 的 调用 节点 ， 在 新 森林 中 都 被 对 临时 变量 的 赋值 指 
令 所 替换 。 其 他 列 出 的 节点 ， 比 如 用 于 比较 的 节点 ， 仅 起 副作用 的 JUMP、LABEL、ASGN 和 
CALL 节点 ， 都 被 添加 到 新 森林 中 。 这 里 ， 如 果 接 口 标志 mulops_calls 等 于 1， 调 用 中 就 包含 乘 
法 操作 符 : 
(dag.c macros) = 
#define iscall(p) (generic((p)->op) == CALL \ 
|| IR->mulops_calls \ 
&& ((p)->op==DIV+I || (p)->op==MOD+I || (p)->op==MUL+I \ 
|| (p)->op==DIV+U || (p)->op==MOD+U || (p)->op==MUL+U)) 
visit 函数 遍历 dag， 查 找 那些 被 多 次 引用 的 节点 ， 也 就 是 那些 count MAF 1 的 节点 。 当 第 
一 次 遇 到 这 样 的 节点 时 ，visit 函数 就 生成 一 个 临时 变量 ， 然 后 构建 赋值 将 该 节点 赋 给 临时 变量 ， 
并 将 赋值 添加 到 新 森林 中 。 当 再 一 次 遇 到 该 节点 时 ， 不 管 是 在 同一 个 dag 还 是 在 接 下 来 的 dag 
中 ，visit 函数 都 会 将 对 该 节点 的 引用 替换 成 一 个 新 节点 ， 新 节点 引用 相应 的 临时 变量 。 这 样 ， 在 
新 森林 中 ， 对 临时 变量 的 赋值 只 出 现在 第 一 次 引用 它 的 dag 的 根 节点 之 前 。 
下 面 的 例子 有 助 于 理解 visit 函数 。 下 列 语句 的 森林 如 图 12- 所 示 : 


register int n, *q; 
n = *q++ = f(n, n); 


图 12-12 中 有 5 个 公共 子 表达 式 ， 也 就 是 说 有 5 个 多 次 引用 的 节点 : q 和 n 的 左 值 、q 和 nm 的 右 值 
以 及 对 f 函 数 的 调用 。 图 12-13 给 出 了 undag 函数 返回 的 森林 。 这 些 公共 子 表达 式 中 只 有 两 个 被 
临时 变量 所 取代 : q 的 右 值 赋 值 给 包 ， 调 用 f 函 数 的 返回 值 赋 值 给 好 。 重 新 计算 qd 和 mn 的 左 值 十 
分 简单 ， 它 们 没有 对 应 的 临时 变量 。 所 以 图 12-13 中 有 两 个 (ADDRLP q) 节点 和 三 个 (ADDRLP 
n) 节点 。 如 下 所 示 ，,n 是 一 个 寄存 器 ， 复制 引用 n 的 INDIR 节点 的 代价 很 小 ,n 的 右 值 也 没有 对 
应 的 临时 变量 ， 所 以 在 图 12-13 中 有 两 个 标识 为 (INDIRI(ADDRLPn)) 的 dags WR EERE A 
被 改 为 下 面 的 语句 ， 图 12-13 中 所 示 的 就 是 可 能 生成 的 森林 : 








P li] RAG 69 Zk 
12-12 n=*q++=f(n,n) 的 森林 
TREE SONBS > oe <- > ARGI---» ARGI- 、 
ADDRLP INDIRP ADDRLP ADDP INDIRI INDIRI 
t2 q 
ADDRLP INDIRP CNSTI ADDRLP ADORLP 
q | 4 n n 
ADDRLP 
t2 
O «sx ee ses P ASONI: 235-5 saan oes > ASGNI 
ADORLP CALLI INDIRP INDIRI ADORLP INDIRI 
t3 n 
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图 12-13 ¥ wants dag 等 于 0 Rf, n=*q++=f(n,n) 的 森林 


register int n, *q, *t2, t3; 
t2 = q; 

Q = *t2 +1; 

t3 = F(a, 13 

*t2 = t3; 

n = t3; 


visit 函数 遍历 以 p 为 根 的 dag， 返 回 p 或 者 返回 保存 p 的 值 的 临时 变量 所 对 应 的 节点 : 


(dag.c functions)+= 268 270 
static Node visit(p, listed) Node p; int listed; { H 
if (p) 
(visit 270); 
return p; 


} 


269 


270 #12F 


当 undag 函数 调用 visit 函数 时 ，listed 等 于 1, “4 visit 函数 递归 调用 它 自 己 时 listed 等 于 0。 

当 visit 函数 为 节点 p 生成 一 个 临时 变量 时 ， 它 在 p->syms[2] 中 保存 了 该 临时 变量 的 符号 表 
AG; 否则 ， 编 译 前 端 无 法 使 用 该 临时 变量 。 visit 函数 还 必须 调用 接口 函数 local 通知 该 临时 变量 ， 
就 好 像 该 临时 变量 有 一 个 Local 代码 表 和 人口 : 


{p->syms[2] — a generated temporary 270) = 


272 
p->syms[2] = temporary(REGISTER, btot(p->op), LOCAL); 
p->syms[2]->ref = 1; 
p->syms[2]->u.t.cse = p; 

(*IR->1ocal) (p->syms[2]) ; 
p->syms[2]->defined = 1; 
(temporaries 270) = 28 
struct { 
Node cse; 
Ft; 


保存 公共 子 表达 式 的 临时 变量 符号 表 入 口 通过 非 空 的 utcse 域 标识 。 这 些 域 指向 了 表示 临时 
变量 的 值 的 节点 。 编 译 后 端 也 可 以 用 这 些 信息 来 标识 那些 重新 计算 要 比重 用 一 个 寄存 器 代价 更 小 
的 公共 子 表 达 式 。 

非 空 的 p->syms[2] 也 标志 p 是 一 个 公共 子 表 达 式 ， 所 以 对 p 的 引用 必须 蔡 换 成 对 临时 变量 的 
引用 ， 这 就 是 visit 函数 第 一 步 要 做 的 : 

(visit 270)= zy! 

if (p->syms[2]) 
p = tmpnode(p) ; 


269 


tmpnode 函数 构建 并 返回 dag (INDIR (ADDRLP p->syms[2])), 该 dag 引用 了 临时 变量 的 右 值 : 


{dag.c functions) += 
static Node tmpnode(p) Node p; { 
Symbol tmp = p->syms[2]; 


oe 
269 272 
v 


if (--p->count == 0) 
p->syms[2] = NULL; 
p = newnode(INDIR + (type suffix for tmp->type 270), 
newnode(ADDRLP, NULL, NULL, tmp), NULL, NULL); 
p->count = 1; 
return p; 


} 


(type suffix for tmp->type 270) = 


270 272 
Cisunsigned(tmp->type) ? I : ttob(tmp->type)) 


p->count 表示 的 是 引用 p 的 次 数 。 对 每 一 次 引用 ，tmpnode 函数 都 将 p>count 的 值 减 1， 如 果 
p->count 等 于 1， 则 清空 p->syms[2]。 将 p->syms[2] 的 值 重新 初始 化 为 空 ， 以 便 编译 后 端的 使 用 。 

对 于 那些 仅 被 引用 了 一 次 的 节点 以 及 有 副作用 的 函数 调用 ，visit 函数 遍历 并 重 写 它们 的 操 
作 数 : 


P Ji] AG OS A ak 271 


(visit 270)+= 20 271 269 
else if (p->count <= 1 && !iscall(p) 
I1 p->count == 0 && iscall(p)) { 
(visit the operands 271) 
} 


(visit the operands 271)= 271 272 
p->kids[0] = visit(p->kids[0], 0); 
p->kids[1] = visit(p->kids[1], 0); 
被 其 他 节点 引用 的 函数 调用 在 这 里 不 会 被 处 理 ， 因 为 即使 它们 只 有 一 次 引用 ， 也 会 蔡 换 成 赋值 指 
令 。 如 下 所 示 ， 它 们 也 被 当 作 公共 子 表 达 式 来 处 理 。 
由 以 上 说 明 可 见 ， 对 于 局 部 变量 和 参数 的 地 址 不 会 生成 临时 变量 ， 通 常 重新 计算 它们 的 地 址 
比 用 一 个 寄存 器 保存 更 划算 。 因 此 ，visit 函数 就 为 所 有 的 ADDRLP 和 ADDRFP 节点 构建 并 返回 
一 个 新 节点 : 
(visit 270) += Ñi 271 269 
else if (p->op == ADDRLP || p->op == ADDRFP) { 
p = newnode(p->op, NULL, NULL, p->syms[0]); 
p->count = 1; 


} 

类 似 地 , 通常 在 另 一 个 寄存 器 中 存储 某 个 寄存 器 变量 的 右 值 是 非常 浪费 的 。 最 好 为 每 一 个 对 
寄存 器 rvalue 值 的 引用 都 构建 一 个 新 的 dag， 如 图 12-13 F n 的 两 个 引用 。 在 图 12-13 H, q 的 值 
被 复制 到 一 个 临时 变量 中 。 对 q 的 右 值 的 引用 则 不 能 被 复制 ， 因 为 INDIR. 已 经 被 列 出 ， 这 表明 
该 值 必须 被 复制 ， 因 为 q 可 能 已 被 改变 了 。 因 此 visit 函数 查找 (INDIR ( ADDRxP v)) 模式 ,其 
中 v 是 一 个 寄存 器 ， 清 除 INDIR 已 经 被 列 出 的 那些 节点 : 

(visit270)+= 21 23) 269 

else if (generic(p->op) == INDIR && ! listed 
&& (p->kids[0]->op == ADDRLP || p->kids[0]->op == ADDRFP) 
&& p->kids[0]->syms[0]->sclass == REGISTER) { 
p = newnode(p->op, newnode(p->kids[0]->op, NULL, NULL, 
p->kids[0]->syms[(0]), NULL, NULL); 
p->count = 1; 
} 
这 种 情况 也 说 明了 为 什么 undag 函数 不 能 早 一 点 调用 ; 例如 ， 不 能 在 walk 函数 中 调用 。 直 到 编 
译 后 端 处 理 到 该 函数 ， 其 局 部 变量 和 参数 的 存储 类 型 才 可 以 确定 。 一 旦 处 理 到 该 函数 ，funcdefn 
函数 就 调用 checkref 函数 ，checkref 会 把 经 常 存 取 的 局 部 变量 和 参数 的 存储 类 型 改 成 REGISTER. 
如 果 undag 函数 在 walk 函数 中 被 调用 ， 它 就 会 为 自动 局 部 变量 和 参数 生成 临时 变量 ， 而 它们 可 
能 会 在 后 面 变 成 寄存 器 存储 类 型 的 。 

最 后 两 种 情况 覆盖 了 INDIRB 节点 和 公共 子 表达 式 的 节点 。 寄 存 器 不 可 能 保存 结构 ， 所 以 就 
没有 将 它们 复制 到 临时 变量 中 ; visit 函数 只 复制 了 INDIRB 节点 : 

(visit270)+= fı 269 

else if (p->op == INDIRB) { 


--p->count; 
p = newnode(p->op, p->kids[0], NULL, NULL); 


272 #%12¢ 


p->count = 1; 
(visit the operands 271) 
} else { 
(visit the operands 271) 
(p->syms(2] — a generated temporary 270) 
*tail = asgnnode(p->syms[2], p); 
tail = &(*tail)->link; 
if (!listed) . 
> p = tmpnode(p) ; 

} 
else 子 句 是 处 理 第 一 次 遇 到 公共 子 表 达 式 的 情况 。 在 遍历 了 操作 数 之 后 ， 如 上 文 所 介绍 的 ，visit 
函数 就 生成 一 个 临时 变量 ， 并 调用 : 

(dag.c functions) += 270 

static Node asgnnode(tmp, p) Symbol tmp; Node p; { 
p = newnode(ASGN + (type suffix for tmp->type 270}, 
newnode(ADDRLP, NULL, NULL, tmp), p, NULL); 
p->syms[0] = intconst(tmp->type->size) ; 
p->syms[1] = intconst(tmp->type->align); 
return p; 


} 

为 该 临时 变量 生成 一 个 赋值 指令 。 然 后 将 该 赋值 指令 添加 到 新 的 森林 中 。 这 些 代码 就 是 负责 生成 
图 12-13 PX} t2 Al t3 的 赋值 。 如 果 listed EF 0, p 被 其 他 节点 所 引用 ， 所 以 visit 函数 必须 返回 
一 个 对 临时 变量 的 引用 。 和 否则 ，p 只 在 旧 森 林 中 被 引用 ， 该 引用 并 未 包含 在 p->count 中 ， 也 就 不 
会 代表 一 次 对 临时 变量 的 引用 。 
深入 阅读 

使 用 代码 表 来 表示 函数 代码 是 lcc 编译 器 的 一 大 特点 。 流 图 是 传统 的 函数 代码 表示 方式 。 流 
图 在 传统 的 编译 器 教材 中 都 将 阐述 ， 例 如 Aho, Sethi and Ullman ( 1986 )。 流 图 中 的 节点 就 是 基 
本 块 ， 而 边 则 表示 从 基本 块 到 后 续 块 的 分 支 。 流 图 这 种 表示 方式 通常 用 来 进行 优化 ， 但 是 ，lcc 
编译 器 不 进行 优化 。 例 如 ， 许 多 过 程 内 优化 算法 发 现 和 改善 循环 代码 都 是 通过 流 图 进行 的 。 

node 函数 用 来 发 现 公共 子 表 达 式 的 自 底 向 上 哈 希 表 算 法 也 被 称 为 value numbering 算法 ， 自 
从 20 世纪 50 年 代 后 期 以 来 ， 就 在 编译 器 中 使 用 。 表 12-1 和 表 12-2 中 的 节点 的 数值 就 是 其 相关 
联 的 节点 的 数目 。value numbering 算法 也 用 在 数据 流 算法 中 ， 以 计算 流 图 中 可 获得 的 表达 式 信息 。 
这 些 信 息 可 以 用 来 删除 那些 被 多 个 基本 块 使 用 的 公共 子 表达 式 。 

12.3 节 中 为 && 和 | 操作 符 生成 短路 代码 的 方式 ， 与 Logothetis and Mishra ( 1981 ) 介绍 的 算 
法 类 似 。 该 方法 和 lee 的 方法 都 传播 真 、 假 标号 。 另 一 种 称 为 回填 (backpatching) 的 方法 ， 传 播 
需要 回填 指令 的 列表 一 一 即 目标 未 定 的 跳 转 。 一 旦 目标 明确 了 ， 就 遍历 这 些 列表 填充 跳 转 指令 。 
这 种 方法 对 于 自 底 向 上 的 直接 语法 分 析 器 (Aho, Sethi and Ullman, 1986 ) 特别 有 效 。 

大 多 数 编译 器 都 是 从 树 生成 代码 ， 但 是 也 有 一 些 使 用 dag ; Aho, Sethi and Ullman (1986 ) 
都 介绍 了 从 树 和 dag 生成 代码 的 相关 算法 ， 并 权衡 了 它们 的 优 缺 点 。 早 期 版 本 的 lce 编译 器 中 包 
含 了 接受 dag 的 代码 生成 器 。 这 些 代码 生成 器 使 用 一 种 紧缩 的 程序 语言 来 描述 指令 选择 ， 该 语 
言 是 专门 为 从 lcc 的 dag 中 产生 代码 而 设计 的 (Eraser，1989 )。 这 种 语言 可 以 为 VAX、Motorola 
68030, SPARC 和 MIPS 系统 编写 代码 生成 器 。 本 书 中 的 所 有 代码 生成 器 都 使 用 树 。 
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12.1 


12.2 
12.3 


12.4 
12.5 
12.6 
12.7 


12.8 


12.9 


12.10 


12.11 
12.12 


12.13 


kill 函数 在 buckets 中 搜索 p 的 右 值 时 ， 在 找到 并 删除 第 一 个 之 后 ， 还 继续 找 。 试 写 一 段 C 代 码 , 说 
HAZE buckets 中 对 于 p 为 什么 同时 会 有 多 种 INDIR 节点 。 提 示 : 考虑 类 型 变换 。 

实现 listnodes 函数 中 处 理 OR 操作 符 的 代码 <OR>。 

画 出 下 面 语 句 生成 的 森林 ， 其 中 a 和 b 是 整 型 数组 : 


while (af[i] && a[i]+b[i] > 0 && a[i]+b[i] < 10) ... 


实现 <RET>; RET 节点 总 是 根 节点 。 

实现 <DIV.MOD>; 确保 你 的 代码 能 正确 处 理 接口 标志 mulops_calls。 

实现 在 12,3 节 中 介绍 的 unlist A. 

给 出 一 个 条 件 表达 式 的 例子 ， 处 理 该 条 件 表 达 式 时 ，<COND> 调用 equatelab 函数 和 unlist 函数 来 删 
除 转 移 到 分 支 的 分 支 。 提 示 : HEAR RAK. 

对 以 下 形式 的 代码 : 


if (1) Sı else S2 


lec 编译 器 生成 : 

Sı 

goto L+ 1 
Li S2 
L+1: 


修改 loc 编译 器 ， 删 除 goto 语句 和 无 用 的 S; 代码 。 
图 12-5 是 赋值 语句 w=x.amt=y; 的 分 析 树 ， 低 层 的 ASGNH 树 是 单个 赋值 x.amt=y 的 树 。 如 果 对 位 域 
所 赋 的 值 没有 被 用 到 ， 那 么 asgntree 函数 为 计算 赋值 语句 结果 的 右 操作 数 而 构建 的 树 就 浪费 了 ， 而 且 
生成 了 没有 必要 的 代码 。 一 旦 编译 前 端 发 现 树 的 值 没有 被 用 到 ， 它 就 传递 该 树 给 root 函数 ， 并 使 用 函 
数 返回 的 树 来 代替 原来 的 树 。 参 见 expr0 和 exprl。 研 究 并 扩展 root 函数 ， 以 便 尽 可 能 简化 位 域 赋值 
语句 的 右 端 。 

12.4 节 中 的 asgntree 函数 和 listnodes 函数 代码 合作 ， 通 过 必要 的 符号 扩展 或 屏蔽 来 计算 位 域 赋值 语 

句 的 结果 。 其 他 赋值 语句 也 有 类 似 情况 。 例 如 : 

int i; 

short s; 

i = $ = OxFFFF; 

在 具有 16 位 短 整数 和 32 位 整数 的 目标 机 器 上 ， 设 置 i 为 -1。 没 有 专门 的 代码 完成 这 类 赋值 ， 但 是 

lce 能 为 该 赋值 生成 正确 的 代码 。 请 解释 loc 是 如 何 做 到 的 。 

如 果 left to right 等 于 0， 画 出 图 12-7 中 树 的 森林 。 

画 出 下 面 扩展 赋值 语句 的 树 和 森林 : 

struct { int b:4, c:4; } x; 

X.C += X.b++; 

位 域 b Al c 在 同一 个 字 中 ， 所 以 该 字 分 别 被 读 取 和 存储 两 次 。 

管理 标号 及 其 同名 标号 是 一 个 union-find 问题 ，union-find 问题 在 Sedgewick ( 1990 ) 的 著作 的 第 30 

章 有 详细 介绍 。 通 常用 压缩 路 径 算法 来 解决 union-find 问题 ， 试 用 该 算法 代 蔡 equatelab PAX. fixup 
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函数 和 equated 函数 ， 考 察 lec 执行 时 间 的 改进 情况 。 如 果 没 有 明显 改进 ， 请 解释 原因 。 

12.14 为 什么 visit 函数 对 ADDRGP 节点 的 处 理 与 对 ADDRLP、ADDREFP 节点 的 处 理 不 同 ? 

12.15 ”如果 depth 等 于 0，<AND> 代码 开始 时 会 调用 reset 函数 。<AND> 在 开始 时 使 depth 的 值 加 1， 结 束 
时 将 depth 的 值 减 1。OR 对 应 的 case 分 支 代码 也 包含 相同 的 操作 。 这 样 ，depth WERKE AND 或 
OR 操作 符 进行 了 计数 。 与 在 COND 中 必须 调用 reset 一 样 ， 这 里 也 必须 调用 reset phic, Bula 254 
页 和 第 255 页 所 做 的 解释 。 如 果 不 调用 reset， 对 于 下 面 的 赋值 语句 ，lcc 将 生成 怎样 的 错误 代码 ? 


x[i] = (n |I (=i), n); 
如 图 12-3 所 介绍 的 ， 对 于 通常 使 用 的 && A l, JAAD reset 函数 却 没有 作用 ， 请 解释 其 原因 。 
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A Retargetable C Compiler: Design and Implementation 


构造 代码 生成 器 





代码 生成 器 为 编译 前 端 提供 接口 函数 ， 这 些 接口 函数 选用 与 目标 机 器 相关 的 指令 来 实现 机 器 
无 关 的 中 间 人 代码。 接口 函数 也 为 变量 以 及 临时 变量 指派 寄存 器 、 固 定 的 存储 单元 或 者 栈 空 间 (也 
在 存储 器 中 )。 

在 lce 编译 后 端的 设计 过 程 中 ， 始 终 优 先 考虑 的 是 全 局 的 简单 性 。 很 少 有 编译 教材 包含 产品 
代码 生成 器 ， 但 是 本 书 介绍 了 3 种 代码 生成 器 。 一 般 来 说 ， 人 工 编写 一 个 规模 中 等 的 代码 生成 器 
需要 1000 到 1500 行 的 C 代码 。 如 果 我 们 尽 可 能 地 隔离 与 目标 机 器 相关 的 特性 ， 这 个 数字 就 会 锐 
减 一 半 。 尽 管 这 样 做 的 代价 增加 了 大 约 1000 行 与 目标 机 器 无 关 的 代码 ， 但 是 ， 只 要 有 两 个 目标 
机 器 ， 就 能 从 这 种 方法 中 获得 益处 。 更 重要 的 是 ， 如 果 我 们 尽 可 能 多 地 使 用 已 有 《〈 即 与 机 器 无 关 ) 
代码 ， 开 发 一 个 新 的 代码 生成 器 就 变 得 更 加 容易 了 。 

lee 将 大 部 分 与 机 器 无 关 的 函数 重组 到 一 个 大 的 与 机 器 无 关 的 程序 中 ， 该 程序 调用 较 小 的 与 
目标 机 器 相关 的 程序 ， 这 样 Ice 就 分 离 了 一 部 分 与 目标 机 器 相关 的 特性 。lce 还 通过 表格 分 离 了 另 
外 一 些 与 目标 机 器 相关 的 特性 。 例 如 ，lcc 寄存 器 分 配 程序 的 大 部 分 与 机 器 无 关 ，lcc 将 与 目标 机 
融 相 关 的 数据 存放 在 一 个 与 目标 机 器 无 关 的 结构 中 ， 这 样 ，lec 寄存 器 分 配 程序 对 目标 相关 的 数 
据 的 处 理 就 转化 成 了 对 存放 该 数据 的 目标 无 关 的 表格 结构 的 处 理 。 此 外 ，lee 还 使 用 专门 描述 特 
性 的 语言 来 描述 与 目标 相关 的 特性 ， 以 分 离 部 分 与 目标 相关 的 特性 ， 例 如 ，lce 使 用 了 一 种 非常 
适合 表达 指令 选择 的 语言 ， 该 语言 包括 驱动 代码 生成 器 的 子 语言 。 

对 于 代码 生成 器 中 与 目标 机 天 无 关 的 部 分 来 说 ， 目 标 机 器 相关 的 操作 就 好 比 是 烧 红 的 煤 块 
儿 ， 只 能 用 钳子 间接 处 理 。 例 如 ， 若 某 个 与 机 器 无 关 的 程序 必须 发 送 一 条 存储 指令 ， 那么 这 时 ， 
该 程序 不 能 直接 调用 print， 它 必须 创建 一 个 ASGN 的 dag( 无 环 有 向 图 )， 然 后 为 该 dag 生成 代码 ; 
或 者 该 程序 调用 某 个 目标 相关 的 函数 来 发 送 指令 ; 或 者 发 送 一 个 预定 义 的 目标 相关 的 模板 。 所 有 
这 些 方法 都 需要 更 多 的 代码 ， 而 不 能 只 调用 print， 但 是 这 样 做 也 有 好 处 ， 可 使 cc 移植 到 新 的 目 
标 机 器 时 变 得 简单 。 例 如 ， 如 果 寄 存 器 溢出 器 采用 较 小 的 目标 无 关 的 部 分 加 上 分 别 对 应 3 种 目标 
机 器 的 目标 相关 部 分 ， 整 体 上 可 能 比 lce 的 机 器 无 关 的 溢出 器 需要 更 少 的 代码 ， 但 是 ， 滋 出 器 调 
试 相 当 困 难 ， 因 此 ， 调 试 一 个 机 器 无 关 的 溢出 器 所 花 的 时 间 就 会 比 调试 3 个 较 简 单 的 目标 相关 的 
dak aie EA 

下 一 章 将 涵盖 指令 选择 、 寄 存 器 分 配 以 及 其 他 与 机 器 相关 的 内 容 。 本 章 介 绍 代码 生成 器 的 整 
体 组 织 及 其 数据 结构 ， 也 会 涉及 一 些 机 器 无 关 的 松散 部 分 ， 但 是 不 会 深入 到 指令 选择 或 者 寄存 器 
分 配 的 内 容 。 

在 本 书 剩 下 的 章节 中 ， 使 用 术语 “ 树 ” 表 示 存 储 在 node 记录 中 的 树 结构 ， 而 前 面 的 章节 中 
使 用 了 术语 dag 表示 从 node 构造 的 结构 。 更 糟糕 的 是 ， 前 面 的 章节 中 还 使 用 了 术语 “ 树 ” 来 表 
示 多 次 引用 其 他 节点 的 结构 ， 这 些 并 不 是 真正 的 “ 树 ”。 在 整 本 书 的 中 间 改 变 术语 容易 使 人 迷惑 ， 
但 其 他 的 方法 更 糟 。 最 初 lcc 使 用 了 基于 dag 的 代码 生成 器 ， 但 是 在 本 书 中 ， 代 码 生成 器 针对 树 
结构 。 如 果 输 入 不 是 纯粹 的 “ 树 ”， 一 些 算法 就 会 失败 。 如 果 在 后 面 的 章节 中 使 用 了 dag， 那 就 是 
错误 的 。lcc 仍然 构建 dag 来 消除 公共 子 表 达 式 ， 但 是 ， 本 书 中 的 代码 清除 了 wants_dag 标记 。 
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13.1 代码 生成 器 的 组 织 


表 13-1 以 调用 图 的 形式 描述 了 编译 后 端的 整体 组 成 。 程 序 名 的 缩 进 表示 程序 之 间 的 调用 关 
系 。 在 该 表 以 及 本 节 中 ， 省 略 了 许多 细节 甚至 许多 程序 。 下 面 的 内 容 只 能 简单 地 引导 大 家 ， 并 不 
能 解决 所 有 的 问题 。 
13-1 简化 的 编译 后 端的 调用 树 


例 程 名 目的 
function 产生 函数 的 头 代码 和 尾 代码 ， 调 用 gencode 
gencode 解释 代码 表 ， 并且 将 树 传递 给 gen 
gen 驱动 rewrite, prune, linearize 和 ralloc 
rewrite 驱动 prelabel、_label 和 ralloc 
prelabel 修改 树 ， 以 适应 寄存 器 变量 和 特殊 的 目标 机 器 
_label 用 所 有 可 能 的 实现 标记 树 
reduce 选择 代价 最 小 的 实现 
prune 从 树 中 剔除 某 些 子 指令 
linearize 为 输出 排序 指令 
ralloc 分 配 寄存 器 
emitcode 解释 代码 表 ， 并 将 节点 传递 给 emit 
emit 追溯 指令 列表 ， 了 驱动 emitasm 
requate 删除 寄存 器 到 寄存 器 的 复制 
moveself 删除 将 寄存 器 复制 到 寄存 器 自身 的 指令 
emitasm 解释 汇编 模板 ， 输 出 大 多 数 指令 
emit2 输出 由 于 过 于 复杂 ， 不 适应 模板 的 指令 


编译 前 端 调用 接口 过 程 function 为 一 个 例 程 生成 代码 。function 决定 了 如 何 接收 和 存储 形 参 ， 
然后 调用 前 端的 gencode。gencode 调用 编译 后 端的 gen 处 理 代码 表 中 的 各 个 森林 。 当 gencode 
结束 返回 的 时 候 ， 后 端 已 经 看 到 整个 程序 ， 并 计算 了 栈 空间 大 小 以 及 所 要 使 用 的 寄存 器 。 进 而 ， 
function 开始 产生 过 程 的 头 代码 ， 调 用 前 端的 emitcode, emitcode 为 代码 表 中 的 每 个 森林 调用 后 
端的 emit。 当 emitcode 4 RIK IAT, function 开始 产生 程序 尾 代码 并 返回 。 

gen 协调 程序 完成 选择 指令 以 及 为 这 些 指令 分 配 寄存 器 临时 变量 的 工作 ， 这 些 程 序 包 括 : 
rewrite, prune, linearize 和 ralloc。rewrite 为 单个 树 选择 相应 的 指令 。prune 从 树 中 剔除 某 些 子 指 
令 ( 即 地 址 模式 可 以 计算 的 操作 )， 这 些 指令 不 需要 寄存 器 ， 消 除 这 些 指令 可 以 简化 寄存 器 分 配 程 
序 。linearize 用 来 安排 输出 剩余 的 指令 。ralloc 接收 一 个 节点 并 为 其 分 配 一 个 目标 寄存 器 ， 同 时 释 
放 那 些 不 再 需要 的 源 寄存 器 。 

rewrite 协调 选择 指令 的 程序 : prelabel, _lablel 以 及 reduce。prelabel 为 每 个 节点 标 出 适合 的 
寄存 器 集合 ， 并 修改 一 些 树 以 更 明确 地 标识 出 读 写 寄存 器 变量 的 节点 。_lablel 是 根据 描述 目标 机 
器 指令 的 语法 自动 生成 的 ， 它 对 一 个 树 进行 标记 ， 以 记录 所 有 可 能 的 使 用 目标 指令 的 实现 方法 。 
reduce 选择 最 为 经 济 的 实现 方式 。 

emit 协调 发 送 指令 的 程序 以 及 标识 不 必 发 送 的 指令 的 程序 : emitasm、requate 和 moveself。 
requate 标识 了 一 些 不 必要 的 寄存 器 到 寄存 器 的 数据 复制 ，moveself 标识 了 那些 将 某 个 寄存 器 复制 
到 该 寄存 器 本 身 的 指令 。emitasm 解释 那些 类 似 于 printf 格 式 的 字符 串 的 汇编 程序 模板 。 对 于 一 
些 太 复杂 而 不 适合 模板 的 指令 ，emitasm 则 交 给 目标 相关 的 emit2 程序 处 理 。 
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13.2 接口 扩展 


编译 后 端的 程序 可 以 为 两 类 : 目标 相关 的 或 者 机 器 无 关 的 ， 后 端 私 有 的 或 者 前 端 可 见 的 。 这 
两 种 分 类 合 起 来 就 将 编译 后 端 程序 分 成 4 种。 下 表 给 出 了 每 种 类 型 的 一 个 例子 ( 例 程 从 表 13-1 中 
选 出 )。 





第 5 章 介绍 了 公共 接口 。 本 节 将 概括 介绍 后 端的 私有 内 部 接口 ; 第 16 章 到 第 18 章 提 供 了 实 
现 这 些 私有 接口 的 例子 ， 有 助 于 回答 更 深入 一 些 的 问题 。 

公共 接口 的 4 个 例 程 blockbeg、blockend、emit 和 gen 都 是 与 目标 机 器 无 闫 的。 它们 可 以 移 
到 编译 前 端 去 ， 但 是 这 样 做 会 使 编译 前 端 在 使 用 不 同 的 代码 生成 技术 时 变 得 复杂 。 我 们 可 以 重 写 
公共 接口 中 的 所 有 例 程 或 是 重 写 除 blockbeg, blockend, emit 与 gen 之 外 的 所 有 例 程 并 实现 私有 
接口 ， 将 loc 重 定向 到 新 的 目标 机 器 。 


Xinterface 结构 扩展 了 接口 记录 : 
(config.h 277)= 279 
typedef struct { 
(Xinterface 277) 


} Xinterface; 


该 类 型 收集 了 所 有 与 机 器 相关 的 数据 和 例 程 ， 这 些 数据 和 例 程 都 是 编译 后 端的 与 目标 无 关 的 部 分 
生成 代码 时 所 需要 的 。 对 于 编译 后 端 来 说 ， 该 类 型 对 于 目标 无 关 部 分 的 意义 ， 就 如 同 接口 记录 主 
体 对 于 编译 前 端的 意义 一 样 。 

首先 处 理 那 些 有 助 于 为 ASGNB 和 ARGB 生成 高 效 代 码 的 特性 ， 这 些 特 性 需要 复制 内 存 块 。 
若 需要 复制 大 量 的 块 ，lce 通过 生成 循环 来 完成 ; 否则 ， 由 于 循环 的 开销 要 比 复制 8 个 字 节 块 的 
于 开销 大 ，lcc 将 短 循环 展开 。 块 复制 生成 程序 一 部 分 与 机 器 相关 ， 一 部 分 与 机 器 无 关 。 机 器 相 
关 部 分 是 一 个 小 整数 和 3 个 过 程 ; 


(Xinterface initializer 277)= 295 336 363 390 
bikfetch, blkstore, bikloop, 


代码 生成 器 不 需要 调用 块 复制 生成 程序 ， 例如， 第 18 章 中 的 代码 生成 器 使 用 X86 块 复制 指 
令 ， 因 此 ， 它 只 实现 了 上 述 例 程 的 基本 部 分 (stub)。 

整数 x.max_unaligned_load 给 出 了 目标 机 器 按 非 对 齐 方式 可 以 存 取 的 最 大 字 节 数 ， 

(Xinterface 277)= 

unsigned char max_unaligned_load; 

例如 ，SPARC 结构 中 没有 实现 非 对 齐 方式 取 数 ， 因 此 ，x.max_unaligned load 等 于 1， 即 只 有 取 
字 节 指令 不 需要 对 齐 。 但 是 ，MIPS 结构 支持 双 字 节 和 四 字 节 的 非 对 齐 方式 取 数 ， 因 此 ，x.m ax_ 
unaligned load 等 于 4。 

过 程 x.blkfetch 产生 从 给 定单 元 取 数 到 寄存 器 的 代码 : 


(Xinterface 277)+= 21 278 277 
void (*bikfetch) ARGS((int size, int off, int reg, int tmp)); 
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blkfetch 产生 的 代码 首先 将 寄存 器 reg KESWA Fe Ht off 相 加 得 到 一 个 地 址 ， 然 后 从 该 地 址 单元 
中 取出 size 字 节 的 数据 ， 载 和 寄存 器 tmp 中。 过程 x.blkstore 产生 代码 ， 将 某 个 寄存 器 数据 存储 
到 给 定单 元 : 
(Xinterface 277)+= 27 2738 277 
void (*blkstore) ARGS(Cint size, int off, int reg, int tmp)); 
blkstore 产生 的 代码 将 size 字 节 的 数据 从 寄存 器 tmp 中 存储 到 给 定单 元 中 ， 单 元 地 址 由 寄存 器 reg 
与 偏 移 量 off 相 加 得 到 。 
过 程 x.blkloop 生成 一 个 循环 来 复制 内 存 中 的 块 : 
(Xinterface 277)+= 278 278 277 
void (*blikloop) ARGS(Cint dreg, int doff, 


int sreg, int soff, 
int size, int tmps[])); 


x.blkloop 产生 一 个 循环 复制 内 存 中 size 字 节 的 数据 。 源 地 址 为 寄存 器 sreg 与 偏 移 量 soff 相 加 之 
和 ， 目 标 地 址 为 寄存 器 dreg 与 偏 移 量 do 在 相 加 之 和 。tmps 是 一 个 由 3 个 整数 组 成 的 数组 ， 表 示 
实现 该 循环 可 用 的 寄存 器 。 

在 块 复制 生成 程序 的 接口 之 后 ， 是 指令 选择 程序 的 接口 : 


(Xinterface 277 ) 十 三 78 278 277 
(interface to instruction selector 295) 


这 有 段 程序 包含 了 与 机 器 无 关 的 gen 和 emit 例 程 所 需 的 大 部 分 与 目标 机 器 相关 的 代码 和 数据 。 这 段 
程序 是 根据 一 个 紧缩 规范 〈specification) 自动 生成 的 。 这 样 ， 重 定向 时 只 需要 书写 新 的 规范 ， 而 
不 必 直 接 编 写 接口 代码 和 数据 。 如 果 没 有 预备 知识 ， 不 论 是 规范 ， 还 是 指令 选择 程序 的 接口 ， 都 
难以 描述 清楚 。 第 14 章 的 引言 部 分 将 详细 介绍 这 一 点 。 

x.emit2 产生 那些 不 能 通过 产生 简单 的 指令 模板 来 处 理 的 指令 : 


(Xinterface 277) 十 三 As 278 27 
void (*emit2) ARGS((Node)); 


每 种 机 器 以 及 许多 调用 约定 (calling convention)， 都 包含 一 些 没 有 emit2 的 转 义 子 句 就 很 难处 理 
的 特性 。 
x,doarg 计算 分 配给 下 一 个 参数 的 寄存 器 或 者 栈 单元 : 
(Xinterface 277)+= 28 238 277 
void (*doarg) ARGS((Node)); 
编译 后 端 要 对 树 组 成 的 森林 进行 多 遍 扫 描 。 第 一 遍 扫 描 时 ， 每 当 遇 到 ARG 节点 就 调用 x.doarg. 
lcc 需要 doarg 来 产生 符合 复杂 的 调用 约定 的 代码 。 
x.target 标记 那些 必须 送 到 特定 寄存 器 中 计算 的 树 节点 : 
(Xinterface277)+= 273279 277 
void (*target) ARGS((Node)); 
例如 ， 返 回 值 必须 存放 到 返回 寄存 器 中 ， 还 有 一 些 机 器 需要 把 除数 及 余数 送 到 固定 寄存 器 中 。 对 
这 些 节点 的 标记 是 通过 对 节点 的 syms[RX] 赋值 来 实现 的 ，syms[RX] 登记 了 存放 该 节点 的 计算 结 
果 的 寄存 器 。 将 会 在 13.5 节 中 详细 介绍 。 
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x.clobber 使 被 某 条 给 定 指令 破坏 的 所 有 寄存 器 溢出 到 存储 器 ， 在 以 后 需要 这 些 寄 存 器 的 值 时 
重新 加 载 : 


(Xinterface 277) += F8 277 
void (*clobber) ARGS((Node)); 
该 过 程 通常 根据 节点 的 操作 码 进行 分 别处 理 ; 每 种 情况 都 要 调用 spill, spill 是 一 个 与 机 器 无 关 的 
过 程 ， 它 保存 或 者 恢复 指定 的 寄存 器 集合 。 


13.3 上行 调用 

正如 编译 后 端 要 使 用 编译 前 端的 一 些 代码 和 数据 一 样 ， 编 译 后 端 中 与 目标 机 器 相关 的 代码 也 
会 使 用 编译 后 端 中 的 一 些 与 目标 机 器 无 关 的 代码 和 数据 。 大 部 分 通过 上 行 调用 (upcall) 访问 的 编 
译 前 端 中 的 程序 都 很 简单 ， 这 些 程 序 是 在 (或 靠近 ) 调用 图 的 叶 节 点 处 ， 所 以 在 第 5 章 中 对 它们 
的 解释 很 容易 。 编 译 后 端 内 部 的 类 似 情况 则 较 复杂 ， 一 般 来 说 需要 利用 上 下 文 来 描述 它们 。 本 书 
在 这 里 对 它们 进行 总 结 ， 以 便 将 loo 重 定向 到 新 的 目标 机 器 时 可 以 在 一 个 地 方 找到 所 有 的 程序 ， 
也 可 以 查阅 第 16 章 到 第 18 章 中 使 用 的 例子 。 事 实 上 ， 对 lcc 重 定向 最 好 的 方式 就 是 通过 对 某 个 
已 存在 的 代码 生成 器 进行 修改 来 实现 ; 有 一 个 完整 的 上 行 调用 例子 的 集合 是 很 吸引 人 的 。 


(config.h 277) += 2h 230 
extern int askregvar ARGS((Symbol, Symbol)); 
extern void bikcopy ARGS(Cint, int, int, 
int, int, int[])); 


extern int getregnum ARGS((Node)); 

extern int mayrecalc ARGS((Node)); 

extern int mkactual ARGS((Cint, int)); 

extern void mkauto ARGS( (Symbol )) ; 

extern Symbol mkreg ARGS((char *, int, int, int)); 
extern Symbol mkwildcard ARGS((Symbol *)); 

extern int move ARGS((Node)); 

extern int notarget ARGS((Node)); 

extern void parseflags ARGS((int, char **)); 

extern int range ARGS((Node, int, int)); 


extern void rtarget ARGS((Node, int, Symbol)); 
extern void setreg ARGS((Node, SymboT)); 


extern void spill ARGSCCunsigned, int, Node)); 
extern int argoffset, maxargoffset; 

extern int bflag, dflag; 

extern int dalign, salign; 

extern int framesize; 

extern unsigned freemask[], usedmask[]; 

extern int offset, maxoffset; 

extern Symbol rmap[]; 

extern int swap; 


extern unsigned tmask[], vmask[]; 
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代码 生成 器 的 主要 操作 就 是 对 编译 前 端的 节点 进行 注释 扩展 。 注 释 记 录 了 诸如 指令 选择 和 寄 
存 器 分 配 的 数据 。 在 node 结构 中 扩展 的 域 被 命名 为 x 并 具有 Xnode KH: 
(config.h 277) += 279 292 
typedef struct { 
(Xnode flags 281) 
(Xnode fields 280) 
+ Xnode; 
指令 选择 器 标识 了 可 以 实现 该 节点 的 指令 和 寻 址 模式 ， 并 且 使 用 x.state 来 记录 结果 : 
{Xnode fields 280)= 280 280 
void *state; 
第 14 章 将 详细 介绍 x.state 域 指向 的 结构 所 表示 的 信息 。 
由 指令 实现 的 节点 需要 寄存 器 ， 但 是 那些 通过 地 址 分 配 实现 的 节点 则 不 需要 寄存 器 ， 所 以 区 
分 这 两 种 类 型 十 分 有 用 ， 指 令 选 择 器 必须 标识 它们 。 编 译 后 端 使 用 x.inst 来 标识 通过 指令 实现 的 
节点 : 


(Xnode fields 280) += #80 230 280 
short inst; 


如 果 节 点 是 通过 指令 实现 的 ， 则 x.inst 非 零 ， 该 值 可 以 帮助 标识 指令 。 
x. kids 域 存放 编译 后 端 形成 的 指令 树 : 
(Xnode fields 280)+= 280 280 280 
Node kids[3]; 
这 棵 树 与 前 端的 kids 类 似 。 但 是 ， 通 过 地 址 模式 子 指令 计算 的 节点 被 排除 了 ， 如 图 1-5 所 示 。 也 
就 是 说 ，x.kids 存储 的 是 图 1-5 中 的 实 线 ; 而 kids 存储 的 是 所 有 的 线 。 
x.kids 有 3 个 元 素 。 因 为 lce 要 产生 读 3 个 源 寄存 器 的 SPARC 和 X86 指令 ， 也 就 是 这 些 指令 
通过 两 个 寄存 器 相 加 得 到 的 一 个 地 址 ， 再 将 另 一 个 寄存 器 存储 到 该 地 址 所 指 的 单元 中 。 如 果 lee 
生成 VAX 代码 ， 且 使 用 的 是 有 3 个 操作 数 的 指令 ， 而 每 一 个 操作 数 都 要 用 到 两 个 寄存 器 (一 个 
基 址 寄存 器 和 一 个 索引 寄存 器 )， 这 样 该 版 本 的 编译 器 在 x.kids 中 就 有 6 个 元 素 。 
在 某 些 情况 下 ， 代 码 生 成 器 必须 将 输出 的 指令 进行 排序 。 编 译 后 端 以 后 序 方式 遍历 排除 寻 址 
模式 的 指令 后 的 指令 树 ， 并 通过 x.prev 和 x.nex 按照 指令 执行 顺序 形成 双向 链表 : 
(Xnode fields 280)+= 280 280 280 
Node prev, next; ry 
例如 ， 图 13-1 给 出 了 图 1-5 的 指令 链表 。 图 中 忽略 了 通过 kids 和 x.kids 构成 的 树 。 
寄存 器 分 配器 使 用 x.prevuse 来 链接 读 写 相同 临时 单元 的 节点 : 
(Xnode fields 280)+= 280 280 280 
Node prevuse; 
某 些 调用 约定 只 使 用 寄存 器 集合 中 前 面 很 少 的 几 个 寄存 器 传递 参数 ， 因 此 编译 后 端 通过 在 
ARG 节点 的 x.argno 域 中 记录 参数 的 数目 处 理 参数 传递 : 


{Xnode fields 280)+= 380 280 
short argno; 


PIER GARE 281 


gen's return value 


INDIRD 
“fld qword ptr %0\n" 


ASGNF 
"fstp dword ptr %0\n" 


INDIRF 
“fld dword ptr %0\n" 


CVFD 
"# nop\n" 


ADDD 
"fadd%1\n" 


CVDI 

“sub esp,4\n 

fistp dword ptr O[esp]\n 
pop %c\n" 


bp RETI 


"# ret\n" 
LABELV 
"%a:\n" 

图 13-1 线性 化 后 的 图 1-5 


每 一 个 节点 扩展 都 保存 了 若干 表示 节点 属性 的 标记 。 例如， 森林 中 的 根 节点 需要 一 些 特 殊 处 
理 (例如 寄存 器 分 配 )， 因 此 编译 后 端 使 用 x.listed 来 标识 它们 : 


(Xnode flags 281)= 281 280 
unsigned listed:1; 
寄存 器 分 配器 和 代码 产生 器 可 以 对 一 些 节点 进行 多 次 遍历 ， 但 是 它们 只 能 在 第 一 次 遍历 时 分 
配 寄 存 器 和 产生 该 节点 的 代码 ， 因 此 它们 设置 x.registered 和 x.emitted 的 值 来 防止 多 次 处 理 ， 


(Xnode flags 281)+= 281 281 280 
unsigned registered:1; 
unsigned emitted:1; 


为 了 删除 某 些 指令 ，lcc 会 对 计算 表达 式 的 临时 单元 进行 重新 安排 。 为 了 实现 这 些 优 化 措施 ， 
编译 后 端 使 用 x.copy 来 标记 所 有 在 寄存 器 之 间 进 行 复 制 的 指令 ， 并 使 用 x. equatable 来 标识 将 寄 
存 器 复制 到 存放 公共 子 表达 式 的 临时 单元 的 指令 : 

(Xnode flags 281)+= 281 281 280 

unsigned copy:1; 
unsigned equatable:1; 

某 些 公共 子 表达 式 的 计算 代价 非常 小 ， 不 值得 为 其 分 配 一 个 寄存 器 。 为 了 节省 这 样 的 寄存 器 
分 配 ， 编 译 后 端 使 用 x.mayrecalc 来 标识 那些 可 被 安全 地 重新 计算 的 公共 子 表达 式 节 点 。 

(Xnode flags 281)+= 281 280 

unsigned mayrecalc:1; 

编译 后 端 为 node 结构 增加 两 个 通用 操作 码 。LOAD 表示 从 寄存 器 到 寄存 器 的 复制 。 当 一 个 

父 节 点 需要 从 一 个 寄存 器 中 输入 、 而 子 节点 产生 了 一 个 不 同 的 寄存 器 时 ， 编 译 后 端 就 插 和 人 一 个 
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LOAD 节点 。 例 如 ， 如 果 一 个 函数 被 调用 并 且 函 数 返回 值 需要 赋 给 一 个 寄存 器 变量 时 ， 子 节点 
CALL 就 产生 一 个 返回 寄存 器 ， 而 父 节 点 需要 LOAD 将 返回 结果 从 返回 寄存 器 复制 到 该 寄存 器 
变量 。 

如 果 编 译 后 端 为 一 个 局 部 变量 或 形 参 指派 了 寄存 器 ， 它 就 将 该 变量 的 所 有 ADDRFP 或 
ADDRLP 操作 码 替 换 为 VREG。 寄 存 器 和 存储 器 引用 需要 不 同 的 代码 ， 而 不 同 的 操作 码 将 告诉 我 
们 需要 产生 什么 代码 。 可 以 确定 的 是 ,在 VREG 节点 上 一 定 是 ASGN 或 INDIR 节点 ; 否则 , 程 
序 就 会 计算 寄存 器 变量 的 地 址 ， 而 这 是 不 允许 的 。 即 使 程序 直接 获得 了 寄存 器 变量 ，INDIR 节点 
也 不 会 从 树 中 剔除 出 来 。 

目标 无 关 的 Regnode 结构 描述 了 一 个 目标 相关 的 寄存 器 : 


(config.h 277)+= Ro 282 
typedef struct { 
Symbol vbl; 
short set; 


short number; 
unsigned mask; 
} *Regnode; 
如 果 该 寄存 器 被 分 配 以 保存 一 个 变量 (而 不 是 一 个 临时 变量 值 )，vbl 就 指向 该 变量 的 符号 结构 。 
set 表示 寄存 器 所 属 的 寄存 器 集合 。set 可 以 处 理 数目 很 大 的 寄存 器 集合 ， 但 是 在 lee 支持 的 所 有 
当前 目标 机 器 中 ，set 只 处 理 两 个 寄存 器 集合 : IREG 和 FREG: 
(config.h277)+= 282 282 
enum { IREG=0, FREG=1 }; 
IREG 和 FREG 用 来 区 别 通 用 寄存 器 和 浮 点 寄存 器 。number 中 保存 的 是 寄存 器 号 ; 即使 寄存 器 是 
用 一 个 名 字 而 不 是 一 个 寄存 器 号 (如 X86 汇编 程序 中 ) 来 标识 ， 通 常 也 有 相应 的 数字 编码 方法 ， 
以 便 二 进 制 代码 产生 器 和 调试 器 使 用 。mask 的 每 一 位 都 表示 相应 的 底层 硬件 寄存 器 的 占用 情况 。 
大 多 数 单字 节 宽 度 的 寄存 器 只 用 一 位 表示 ， 而 大 多 数 双 字 节 宽度 寄存 器 正好 由 两 位 表示 。 例 如 ， 
mask 为 1 表示 单字 节 宽 度 的 寄存 器 0， 而 mask 为 6 表示 的 是 占用 了 单字 节 宽 度 寄 存 器 1 和 2 的 
双 字 节 宽 度 寄存 器 ，X86 体系 结构 有 一 字 节 、 二 字 节 和 四 字 节 整 型 寄存 器 ， 因 此 它 的 mask 值 有 
1、2 或 4 个 位 为 1。 这 种 表示 对 于 大 多 数 寄存 器 已 经 足够 了 ， 但 并 不 能 表示 所 有 的 寄存 器 集合 ; 
参见 练习 13.2。 


13.5 符号 扩展 
编译 后 端 还 扩展 了 symbol 结构 。 该 域 被 命名 为 x 并 具有 Xsymbol 类 型 ; 


(config.h277)+= 2 283 
typedef struct { 
char *name; 
int offset; 
(fields for temporaries 283) 
(fields for registers 283) 
} Xsymbol; 


x.name 就 是 编译 后 端 为 该 符号 产生 的 名 字 。 对 于 全 局 变量 ， 在 某 些 目标 机 器 上 ， 它 可 能 等 于 
name。 对 于 局 部 变量 和 形 参 ， 它 是 一 个 数字 串 ， 其 值 等 于 栈 偏 移 量 x.offset。 局 部 变量 的 偏 移 量 
永远 是 负 值 ， 但 参数 的 偏 移 量 可 能 是 正 值 ， 因 此 x.offset 是 有 符号 整数 。 
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如 果 当 前 符号 是 一 个 编译 前 端 存储 公共 子 表达 式 的 计算 结果 的 临时 变量 ， 那 么 编译 后 端 将 通 
过 x.lastuse 把 所 有 读 或 写 该 表达 式 的 节点 连接 起 来 ， 并 用 xusecount 计算 读 写 的 次 数 : 
(fields for temporaries 283 ) 三 282 


Node lastuse; 
int usecount; 


在 初始 化 过 程 中 ， 编 译 后 端 为 每 一 个 可 分 配 的 寄存 器 分 配 一 个 寄存 器 符号 ， 表 示 寄 存 器 分 配 
给 了 一 个 带 该 符号 的 节点 ， 因 此 产生 器 可 以 采取 产生 保存 在 syms 中 的 标识 符 和 常量 的 机 制 ， 输 
出 寄存 器 名 和 数字 。 这 些 寄存 器 符号 使 用 两 种 特殊 的 域 : 
(fields for registers 283)= 283 282 
Regnode regnode; 
编译 后 端 将 x.regnode 指向 描述 寄存 器 的 结构 ， 并 将 xname 设置 为 寄存 器 名 或 寄存 器 号 。 当 后 端 
把 一 个 寄存 器 分 配给 某 个 节点 pp 时， 就 在 p->syms[RX] 中 存储 相应 的 寄存 器 符号 。 编 译 后 端 将 
RX 设置 为 2， 以 避免 改变 编译 前 端 在 syms[0] 和 syms[1] 中 传递 过 来 的 值 : 
(config.h277)+= 282 285 
enum { RX=2 }; 
但 是 ， 一 旦 编译 前 端 调用 function 函数 ，syms 的 所 有 元 素 就 都 变 成 编译 后 端的 属性 。 编 译 前 
端 将 适应 这 种 改变 ， 编 译 后 端 只 要 认为 合适 就 可 以 改变 这 些 属性 。 后 端的 大 部 分 改变 都 是 针对 
Xsymbol 域 和 syms[RX] 的 ， 但 也 有 一 些 改变 是 针对 其 他 域 的 。 
mkreg 创建 并 初始 化 寄存 器 符号 : 
(gen.c functions) = 284 
Symbol mkreg(fmt, n, mask, set) 


char *fmt; int n, mask, set; { 
Symbol p; 


NEWO(p, PERM); 

p->x.name = stringf(fmt, n); 
NEWO(p->x.regnode, PERM); 
p->x.regnode->number = n; 
p->x.regnode->mask = mask<<n; 
p->x.regnode->set = set; 
return p; 


} 

stringf 用 来 创建 一 个 包含 寄存 器 号 的 寄存 器 名 。 例 如 ， 如 果 i 等 于 7， 那 么 mkreg ("r%d", i, 1, 
IREG) 就 创建 一 个 名 为 17 的 寄存 器 。 通 常 第 29 个 寄存 器 称 为 sp 而 不 是 r29， 将 使 用 像 mkreg 
("sp"，29，1，IREG) 这 样 的 调用 。 

编译 后 端 还 要 表示 寄存 器 的 集合 。 例 如 ， 如 果 一 个 节点 必须 被 计算 并 存放 到 某 个 特殊 的 寄存 
右 中 ,那么 编译 后 端 将 使 用 寄存 器 来 标识 该 节点 ; 但 是 如 果 该 节点 可 以 被 计算 并 存放 到 某 个 寄存 
器 集合 中 的 任何 一 个 寄存 器 中 ， 那 么 编译 后 端 就 会 用 一 个 表示 这 个 集合 的 值 来 标识 它 。 编 译 后 端 
通过 在 特定 通配符 (wildcard symbol) 的 x.wildcard 域 中 存储 一 个 指针 向 量 来 表示 一 个 寄存 器 集 
合 ， 指 针 向 量 的 每 个 元 素 分 别 指向 包含 在 寄存 器 集合 内 的 寄存 器 符号 : 


(fields for registers 283) += 283 282 
Symbol *wildcard; 
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例如 ， 如 果 一 个 机 器 有 32 个 整数 寄存 器 ， 编 译 后 端 就 会 分 配 32 个 寄存 器 符号 ， 并 将 它们 
存储 在 一 个 具有 32 个 元 素 的 向 量 中 。 然 后 分 配 一 个 通配符 ， 并 将 该 向 量 的 地 址 存储 在 通配符 的 
x.wildcard 域 中 。mkwildcard 函数 创建 一 个 寄存 器 集合 符号 : 


(gen.c functions) += 283 285 
Symbol mkwildcard(syms) Symbol *syms; { 
Symbol p; 


NEWO(p, PERM); 
p->x.name = "wildcard"; 
p->x.wildcard = syms; 
return p; 


} 


x, name 的 值 "wildcard" 不 会 在 lcc 的 输出 中 出 现 ， 但 是 不 管 怎样 ，xname 都 会 被 初始 化 ， 因 此 
产生 器 不 会 失效 ， 即 便 出 错 ; 至 少 也 会 产生 一 个 有 效 的 寄存 器 名 。 


13.6_ 帧 的 布局 


过 程 活动 记录 (也 称 为 帧 ) 保存 了 一 个 过 程 被 调用 时 需要 的 所 有 状态 信息 ， 包 括 自 动 变量 、 
返回 地 址 以 及 保存 的 寄存 器 。 栈 中 为 每 一 个 活动 过 程 调 用 保存 了 一 个 帧 ， 这 个 栈 向 下 增长 ， 即 回 
低地 址 方向 增长 。 例 如 ， 如 果 main 函数 调用 工 函 数 ， 而 工 函 数 又 递归 调用 它 自 身 一 次 ， 这 时 栈 的 
结构 就 如 图 13-2 中 所 示 。 栈 结构 朝 阴 影 区 域 增长 。 


高 地 址 
main 的 帧 








f 的 帧 
把 一 一 栈 指针 
低地 址 
图 13-2 3 个 栈 帧 


一 个 逻辑 帧 指针 指向 一 个 栈 帧 内 的 某 个 地 方 。 对 于 所 有 的 目标 机 器 ， 相 对 于 帧 指针 来 说 ,局 
部 变量 具有 负 的 偏 移 量 。 形 参 和 其 他 数据 根据 目标 机 器 的 约定 可 能 有 正 的 或 负 的 偏 移 量 。 图 13-3 
给 出 了 一 个 典型 的 帧 结构 。 

某 些 目标 机 器 把 帧 指针 保存 在 一 个 物理 寄存 器 中 ; 例如 ， 在 图 18-1 中 ，X86 的 帧 指针 存储 
在 寄存 器 ebp 中 ， 而 它 指向 了 存储 在 该 帧 中 的 某 个 寄存 器 。 其 他 目标 机 器 仅 保存 栈 指 针 ， 帧 指 
针 表 示 为 栈 指针 和 某 个 常量 的 和 ; 例如 ,在 MIPS 代码 生成 器 中 ， 如 果 某 个 程序 的 帧 有 80 字 节 ， 
它 的 虚拟 帧 指针 就 是 地 址 80($sp) (EI 80 加 上 栈 指针 $sp 的 值 )， 而 -4+80($sp) 引用 了 偏 移 量 为 
-4 的 局 部 变量 (参见 图 16-1 )。 
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保存 的 寄存 器 


局 部 变量 


高 地 址 












输出 参数 


低地 址 栈 指针 


图 13-3 典型 的 帧 


offset 就 是 最 后 一 个 自动 变量 的 栈 偏 移 量 的 绝对 值 ，mkauto 函数 将 栈 空间 进行 对 齐 ， 以 便 安 
排 下 一 个 帧 : 


(gen.c data)= 285 
int offset; 
(gen.c functions) += Ba 285 


void mkauto(p) Symbol p; { 
offset = roundup(offset + p->type->size, p->type->align); 
p->x.offset = -offset; 
p->x.name = stringd(-offset) ; 


} 


使 用 绝对 值 就 避免 了 对 负 整 数 进 行 除 操作 时 的 取 整 问题 ， 而 且 我 们 并 不 假设 所 有 的 偏 移 量 都 
是 负 值 ， 因 为 对 于 一 些 形 参 来 说， 它们 也 确实 不 是 负 值 。 

在 每 一 个 块 的 开始 ， 编 译 前 端 都 调用 blockbeg 来 保存 当前 栈 的 偏 移 量 以 及 每 一 个 寄存 器 的 分 
配 状态 : ， 


(config.h 277) += 283 294 
typedef struct { 
int offset; 
unsigned freemask[2]; 
} Env; 


(gen.c functions) += 285 285 
void blockbeg(e) Env *e; { 
e->offset = offset; 
e->freemask[IREG) = freemask[IREG] ; 
e->freemask[FREG] = freemask[FREG]; 


} 
blockend 在 块 结束 时 会 恢复 保存 的 值 : 
(gen.c data) += 25 286 


int maxoffset; 


(gen.c functions) += 385 286 
void blockend(e) Env *e; { 
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if (offset > maxoffset) 
maxoffset = offset; 
offset = e->offset; 
freemask[IREG] = e->freemask[IREG]; 
freemask(FREG] = e->freemask[FREG]; 
} 


blockend 还 要 为 当前 程序 计算 offset 的 最 大 值 。 


(gen.c data) 二 三 BS 286 
int framesize; 

接口 过 程 function 设置 framesize 的 值 等 于 或 大 于 maxoffset， 以 留 出 空间 来 存储 诸如 被 调用 程序 
必须 保存 的 寄存 器 之 类 的 数据 ， 它 还 会 生成 过 程 头 和 过 程 尾 代码 ， 这 些 代码 根据 framesize 调整 
栈 指针 ， 以 分 配 或 释放 该 程序 所 有 块 的 栈 空 间 。 

每 一 个 程序 的 栈 帧 都 包含 一 个 参数 构建 区 ， 这 是 一 片 输出 参数 的 存储 块 ， 如 图 13-3 所 示 。 
lce 可 以 通过 将 参数 压 栈 来 传递 参数 ， 压 栈 指 令 就 隐 含 地 分 配 存储 块 。 然 而 ， 当 前 的 RISC 机 器 没 
有 压 栈 指令 ， 用 多 条 指令 进行 模拟 也 很 慢 。 对 于 这 些 机 器 ，lcc 分 配 一 块 存储 块 ， 并 将 每 个 参数 
移 进 该 存储 块 的 相应 单元 中 。lcc 为 每 个 程序 创建 一 个 存储 块 ， 使 得 该 块 足够 满足 最 大 的 输出 参 
数 集合 。 

计算 参数 构建 区 的 偏 移 量 和 块 大 小 的 代码 及 数据 类 似 于 前 面 介 绍 的 管理 自动 变量 的 代码 及 数 
据 。argoffset 表示 下 一 个 可 用 的 块 偏 移 量 ，mkactual 将 它 按 照 规 定 的 对 齐 方式 取 整 ， 返 回 该 结果 
并 更 新 argoffset M(H: 


(gen.c data) += 286 286 
int argoffset; 


(gen.c functions) += 285 286 
int mkactual(align, size) int align, size; { 
jnt n = roundup(argoffset, align); 


argoffset = n + size; 
return n; 


} 


处 理 每 一 个 参数 列表 结束 的 CALL 节点 时 都 要 调用 docall 函数 。 该 函数 为 下 一 个 参数 集合 清除 
argoffset 值 ， 计 算出 最 大 的 输出 参数 块 的 大 小 并 存 于 maxargoffset 中 : 


(gen.c data)+= 286 288 
int maxargoffset; 
(gen.c functions)+= 286 287 


static void docall(p) Node p; { 
p->syms[0] = intconst(argoffset); 
if (argoffset > maxargoffset) 
maxargoffset = argoffset; 
argoffset = 0; 


docall 函数 将 当前 调用 参数 块 的 大 小 记录 在 p->syms[0] 中 ， 因 此 必要 时 调用 者 可 以 将 它 弹出 
Re. X86 代码 生成 器 就 使 用 了 这 种 机 制 。 
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13.7 ”生成 块 复制 的 代码 


ASGNB 和 ARGB 复制 存储 块 。lcc 会 生成 循环 代码 来 复制 大 的 存储 块 ， 但 是 它 将 较 短 的 循 
环 展开 为 线性 代码 ， 因 为 循环 的 开销 可 以 抵消 诸如 8 字 节 的 块 复制 所 带 来 的 数据 移动 的 开销 。 
blkcopy 函数 是 块 复制 代码 生成 器 的 人 口 点 。 它 与 目标 机 器 无 关 ， 与 blkloop 的 参数 相同 : 


~ 


(gen.c functions) += 286 
void blkcopy(dreg, doff, sreg, soff, size, tmp) 
int dreg, doff, sreg, soff, size, tmp[]; { 
(bi kcopy 287 ) 


tw 


88 


vv 


blkcopy 产生 代码 ， 完 成 在 主 存 中 复制 size 个 字 节 的 功能 。 源 地 址 是 通过 寄存 器 sreg 的 值 与 偏 移 
量 soff 相 加 得 到 的 ， 目 标 地 址 则 通过 寄存 器 dreg 的 值 与 偏 移 量 doff 相 加 得 到 。tmps 给 出 了 3 个 
寄存 器 中 可 以 被 产生 的 代码 来 存放 临时 变量 的 寄存 器 的 数目 。 

对 于 较 长 的 块 ，blkcopy 将 调用 blkloop， 但 是 对 于 16 字 节 或 更 少 字 节 的 块 ， 则 是 把 循环 展 
F; 在 考虑 了 其 他 一 些 编译 器 使 用 的 限制 值 之 后 ， 我 们 选择 了 16 作为 限制 值 ， 虽然 可 能 有 些 武 
Wi. blkcopy 是 递归 的 ， 所 以 开始 时 ， 它 要 确认 还 需要 复制 的 块 : 


(blkcopy 287)= 287 287 
if (size == 0) 
return; 
如 果 剩 下 的 块 少 于 4 个 字 节 ，blkcopy 将 调用 bikunroll 以 产生 复制 它们 的 代码 : 
(blkcopy 287)+= 287 287 287 


else if (size <= 2) 
blkunroll(size, dreg, doff, sreg, soff, size, tmp); 
else if (size == 3) { 
bikunrol1(2, dreg, doff, sreg, soff, 2, tmp); 
blkunroll(1, dreg, doff+2, sreg, soff+2, 1, tmp); 
} 
如 果 该 块 有 4 到 16 个 字 节 ，blkcopy 就 将 size 向 下 取 整 为 4 的 倍数 (用 size& ~ 3)， 并 调用 
blkunroll 以 每 次 复制 4 字 节 的 方式 复制 那些 字 节 。 然 后 它 递 归 调 用 自身 来 处 理 余下 的 0 到 3 个 
(blkcopy 287) += 287 287-287 
else if (size <= 16) { 
blkunrol1(4, dreg, doff, sreg, soff, size&3, tmp); 
blkcopy(dreg, doff+(size&~3), 
sreg, soff+(size&~3), size&3, tmp); 
} 


循环 用 来 复制 超过 16 字 节 的 块 : 
(bl kcopy 287 ) 十 三 287 287 


else 
(*IR->x.blkloop)(dreg, doff, sreg, soff, size, tmp); 


除了 多 出 一 个 开头 的 整数 参数 k 外 ，blkunroll 的 参数 与 blkcopy 和 blkloop 相同 ，k 表示 一 次 
可 以 复制 的 字 节 数 ， 它 的 取 值 一 定 是 1、2 或 4: 
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(gen.c functions) += 287 289 
static void blkunrotl(k, dreg, doff, sreg, soff, size, tmp) 
int k, dreg, doff, sreg, soff, size, tmp[]; f 

ane T3 


{reduce k? 288) 
(emit unrolled loop 288 ) 


理想 情况 下 ，blkunroll 会 交替 调用 blkfetch 和 blkstore， 以 每 次 复制 一 个 上 字 节 的 存储 块 。 这 
种 情况 下 ， 源 或 目标 地 址 的 对 齐 数 可 能 就 不 是 k 的 整数 倍 ， 而 在 某 些 目标 机 器 上 ， 如 果 该 地 址 不 
E k 的 整数 倍 ， 将 不 能 加 载 或 存储 k 字 节 单元 。blkcopy 的 最 初 调用 者 将 全 局 变量 salign 和 dalign 
设置 为 源 和 目标 块 的 对 齐 数 : 
(gen.c data)+= 286 289 
int dalign, salign; 
如 果 编 译 器 对 源 或 目标 的 对 齐 数 一 无 所 知 ， 那 么 它 就 设置 salign 或 dalign 等 于 1， 因 为 所 有 
块 的 地 址 都 能 被 1 整除 。 使 用 全 局 变量 salign 和 dalign 是 折 中 的 方法 : 将 它们 作为 参数 进行 传递 
可 能 更 合适 ， 但 是 该 过 程 的 参数 已 经 太 多 了 ， 而 且 将 这 些 参数 打包 为 一 个 结构 只 会 使 结果 更 精 
RE. blkunroll 使 用 这 些 值 和 x.max_unaligned load 来 减 小 k 的 值 ， 这 样 如 果 k 超 过 了 非 对 齐 取 数 
与 源 或 目标 地 址 对 齐 取 数 的 最 大 值 ， 则 可 以 复制 较 小 的 块 : 


(reduce k?288)= 288 
if (k > IR->x.max_unaligned_load 
&& (k > salign || k > dalign)) 
k = IR->x.max_unaligned_load; 


因此 ， 对 于 目标 地 址 按照 32 位 对 齐 、 源 地 址 按照 16 位 对 齐 的 情况 来 说 ， 只 要 一 次 复制 16 
位 就 可 以 了 。 复 制 头 16 位 后 ， 源 区 域 剩余 的 字 节 将 按照 32 位 对 齐 ， 但 是 它 会 接着 将 余下 的 目标 
区 域 变 成 16 位 对 齐 。 所 以 单独 这 一 步 并 不 能 帮 有 我 们 生成 更 优 的 代码 ; 参见 练习 13.3. 

当 一 个 取 操 作 正 好 在 使 用 其 结果 的 指令 之 前 时 ， 就 会 引起 停顿 。blkunroll 解决 此 类 停顿 的 办 
法 是 : 先 产 生 两 条 取 数 指令 ， 然 后 再 产生 两 条 存 数 指令 ， 这 样 ， 存 数 指令 就 不 会 紧 跟 在 对 应 的 取 
数 指令 之 后 : 

(emit unrolled loop 288 ) = 288 288 

for (i = 0; i+k < size; i += 2*k) { 
(*IR->x.blkfetch) (k, soff+i, sreg, tmp[0]); 
(*IR->x.blkfetch)(k, soff+i+k, sreg, tmp[1]); 
(*IR->x. blkstore)(k, doff+i, dreg, tmp[0]); 
(*IR->x.blkstore)(k, doff+i+k, dreg, tmp[1]); 
} 

for 循环 的 每 次 循环 产生 取 数 和 存 数 指令 对 。 当 没有 剩余 指令 对 时 ， 它 就 退出 循环 ， 如 果 调 
用 次 数 为 奇数 ， 就 再 产生 一 对 指令 : 

(emit unrolled loop 288)+= 288 288 

if G < size) { 
(*IR->x.blkfetch)(k, i+soff, sreg, tmp[0]); 
(*IR->x.bikstore)(k, i+doff, dreg, tmp[0}); 
} 
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图 13-4 给 出 了 Ice 生成 用 于 复制 一 个 20 字 节 的 结构 体 的 MIPS 代码 ， 源 地 址 和 目标 地 址 按 
照 4 字 节 对 齐 。 第 1 列 列 出 了 对 上 述 过 程 的 调用 。 第 2 列 给 出 了 相应 的 产生 代码 。tmps 的 初始 
值 为 {3,9,10}. 4 16 章 将 介绍 MIPS 指令 以 及 针对 MIPS 的 blkloop、blkfetch 和 blkunroll 过 程 。 
MIPS 的 blkloop 过 程 每 次 复制 8 个 字 节 。 在 循环 之 前 ， 会 递归 调用 blkcopy 过 程 来 复制 剩 下 的 4 
个 字 节 。 

blkcopy(25, 0, 8, 0, 20, {3,9,10}) 


bikloop(25, 0, 8, 0, 20, {3,9,10}) addu $8,$8,16 
addu $10,$25,16 


blkcopy(10, 0, 8, 0, 4, {3,9,10}) 
bikunrol1(4, 10, 0, 8, 0, 4, {3,9,10}) 
blkfetch(4, 0, 8, 3) lw $3,0(€$8) 
blkstore(4, 0, 10, 3) sw $3,0($10) 
blkcopy(10, 0, 8, 0, 0, {3,9,10}) 


L.33 
addu $8,$8,-8 
addu $10,$10,-8 
blkcopy(10, 0, 8, 0, 8, {3,9,10}) 
blkunrol1(4, 10, 0, 8, 0, 8, {3,9,10}) 
blkfetch(4, 0, 8, 3) Iw $3,0($8) 
bikfetch(4, 4, 8, 9) Iw $9,4($8) 
blkstore(4, 0, 10, 3) sw $3,0($10) 
bikstore(4, 4, 10, 9) sw $9,4($10) 
bltu $25,$10,L.3 


图 13-4 生成 结构 体 复制 的 代码 





13.8 初始 化 


parseflags 识别 那些 影响 代码 生成 的 命令 行 选项 。 例 如 ，-d 选项 表示 调试 输出 ， 它 有 助 于 将 
lec 移植 到 新 的 目标 机 器 上 。 本 书 忽 略 了 产生 调试 输出 信息 的 函数 。 


(gen.c data) += 288 290 
int dflag = 0; 
(gen.c functions) += 288 297 
void parseflags(argc, argv) int argc; char *argv[]; { 
int i; 


for (i = 0; i < argc; i++) 
if (stremp(argv[i], “-d") == 0) 
dflag = 1; 
} 

lec 可 以 运行 在 某 个 机 器 〈 宿 主机 ) 上 ， 为 另 一 个 机 器 〈 目 标 机 器 ) 产生 代码 。 其 中 一 个 机 器 
可 以 是 高 位 优先 的 机 器 ， 而 另 一 个 可 以 是 低位 优先 的 机 器 ， 这 就 使 得 产生 double 类 型 的 常量 时 变 
得 有 些 复杂 ， 但 是 这 样 会 为 初始 化 过 程 带 来 一 些 好 处 。 

lec 假定 它 是 在 具有 IEEE 浮 点 运算 的 机 器 上 运行 ， 并 为 该 类 机 器 编译 代码 。 宿 主机 和 目标 机 
器 不 需要 是 相同 的 机 器 ， 但 是 它们 都 必须 采用 IEEE 浮 点 和 运算。 这 种 假定 虽然 是 一 种 限制 ， 但 是 
牺牲 很 小 。 

第 5 章 中 关于 接口 过 程 defeonst 的 讨论 说 明了 C 的 代码 生成 器 必须 自己 对 浮 点 数 进行 编码 。 
也 就 是 说 ， 它 们 必须 产生 等 价 的 十 六 进 制 常 量 ， 并 且 要 避免 将 浮 点 常量 的 文本 表示 转换 为 机 器 内 
部 表示 的 汇编 指令 。 
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lcc 可 以 为 每 一 个 单 精度 浮 点 数 产 生 一 个 字 ， 但 是 对 于 双 精 度 浮 点 数 则 必须 产生 两 个 字 。 如 
果 loc 运行 在 一 个 低位 优先 的 机 器 上 ， 并 且 为 低位 优先 的 机 器 进行 编译 ， 或 者 如 果 两 台 机 器 都 是 
高 位 优先 的 机 器 ， 那 么 对 浮 点 数 的 编码 都 是 相同 的 ， 而 代码 生成 器 可 以 顺序 产生 组 成 双 精度 的 两 
个 字 。 但 是 ， 如 果 一 个 是 高 位 优先 ， 另 一 个 是 低位 优先 ， 那 么 一 个 要 求 先 产生 高 位 字 ， 而 另 一 个 
要 求 先 产生 低位 字 。 产 生 这 些 数据 的 时 候 ，defconst 必须 交换 高 位 和 低位 。 

接口 标志 little_endian 对 目标 机 器 进行 分 类 ， 但 是 接口 中 没有 对 宿主 机 进行 分 类 的 信息 。lece 
在 初始 化 过 程 中 自动 对 宿主 机 进行 分 类 : 


(gen.c data) += wo 307 
int swap; 


(shared progbeg 290 ) = 337 364 390 
{ 
union { 
char c; 
17 
} u; 
u.i = 0; 
u.c = ls 
swap = (u.i == 1) != IR->little_endian; 
} 
低位 优先 的 机 器 利用 ui 的 低位 的 定义 uc， 所 以 上 面 的 代码 在 将 uc 赋值 为 1 的 同时 也 将 u. i 设 
置 成 了 1。 高 位 优先 的 机 器 利用 ui 的 高 位 的 定义 uc， 所 以 对 于 lec 的 32 位 目标 机 ， 在 将 uc WR 


值 为 1 的 同时 也 将 ui 设置 成 了 0x01000000。 
深入 阅读 
本 书 从 这 一 章 开始 的 内 容 有 助 于 了 人 解 最 新 的 计算 机 体系 结构 。 例 如 ， 如 果 不 理解 当前 机 器 取 


数 和 存 数 操作 是 如 何 相 互 作用 的 ， 那 么 就 无 法 理解 blkunroll 的 取 数 - 取 数 - 存 数 - 存 数 指令 组 合 
的 意义 。Patterson and Hennessy (1990) 介绍 了 计算 机 体系 结构 。 


练习 

13.1 部 分 lce 程序 假设 目标 机 器 最 多 有 两 个 寄存 器 集合 。 找 出 这 些 程序 并 将 它们 通用 化 ， 使 其 可 以 处 理 更 
多 的 寄存 器 集合 。 

13.2 PBS} loc 程序 假设 目标 机 器 的 每 一 个 寄存 器 集合 中 最 多 有 N 个 寄存 器 ， 这 里 N 是 一 个 无 符号 数 。 标 出 
这 些 程序 并 将 它们 通用 化 ， 使 其 可 以 处 理 更 大 的 寄存 器 集合 。 

13.3 图 13-4 的 第 1 列 给 出 了 在 源 和 目标 地 址 可 被 4 整除 的 情况 下 ， 
bikcopy(25, 0, 8, 0, 20, {3, 9, 10}) 
的 调用 步骤 。 当 源 和 目标 地 址 可 被 2 而 不 是 4 整除 时 ， 给 出 类 似 的 调用 步 又 。 


13.4 lec 会 把 那些 复制 16 字 节 或 更 少 字 节 的 结构 体 的 循环 进行 展开 。 这 种 限制 显得 有 些 不 合理 。 设 计 试验 
方案 以 确定 更 适合 你 的 机 器 的 限制 值 。 
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本 书 介绍 的 指令 选择 器 是 由 程序 lburg 根据 紧缩 规范 自动 生成 的 ，lburg 是 代码 生成 器 的 生成 
fits lec 还 含有 另外 一 些 指令 选择 器 ， 其 中 有 些 是 手写 的 ， 有 些 是 由 另 一 些 代码 生成 器 的 生成 器 
产生 的 ， EES SURI A Cees HCE Re Bee Misti. 国 
而 ,尽管 树 元 素 的 类 型 是 “ struct node”, iii AE “struct tree”， 本 书 所 有 的 编译 后 端 仍 将 wants_ 
dag 置 为 0， 只 对 树 进行 操作 。 

Iburg 接受 紧缩 规范 并 产生 一 个 用 C 语言 编写 的 树 分 析 程序 ， 该 程序 为 目标 机 器 选择 指令 。 
就 像 编 译 前 端的 分 析 程 序 把 输入 分 割 成 语句 、 表 达 式 之 类 的 单元 一 样 ， 树 分 析 程 序 接受 中 间伐 码 
的 主题 树 ， 并 把 它 分 割 成 与 目标 机 器 指令 相对 应 的 程序 块 ， 这 种 分 割 称 为 树 覆盖 。 本 章 称 生成 
的 树 分 析 程 序 为 BURM。lcc 要 求 每 个 目标 机 器 都 有 一 个 分 析 程 序 ， 所 以 它 在 mips.c、sparc.c 和 
x86.c 中 各 生成 一 个 BURM。 

lburg 规范 的 核心 是 树 文法 。 与 常规 的 文法 类 似 ， 树 文法 也 是 一 个 规则 列表 ， 每 条 规则 的 左 
边 是 一 个 非 终结 符 ， 右 边 是 终结 符 〈 中 间 代 码 中 的 操作 符 ) 和 非 终 结 符 组 成 的 模式 。 

典型 规则 将 每 种 模式 与 一 个 寻 址 形式 或 者 与 执行 该 模式 中 的 操作 的 指令 相关 联 。 常 规 的 模式 
如 同 线性 的 信息 串 ， 但 树 模 式 是 一 种 结构 树 ， 所 以 树 模 式 必须 描述 所 匹配 的 操作 以 及 模式 中 那些 
操作 的 相对 位 置 。lburg 的 规范 就 用 一 个 函数 符号 和 圆 括号 描述 了 这 种 结构 。 例 如 ， 模 式 : 

ADDI (reg, con) 


如 果 节 点 ADDI 的 第 一 个 子 节点 递归 地 匹配 非 终 结 符 reg， 第 二 个 子 节点 递归 地 匹配 非 终结 符 
con， 那 么 该 模式 就 在 节点 ADDI 处 匹配 一 棵 树 。 规 则 
addr: ADDI(reg, con) 


规定 了 非 终结 符 addr 与 上 述 模式 相 匹配 。 规 则 
stmt: ASGNI (addr, reg) 


规定 了 只 要 ASGNI 节 点 的 每 子 节点 递归 地 与 addr 和 reg 相 匹配 ， 非 终结 符 stmt 就 与 该 ASGNI 
节点 匹配 。 

生成 的 代码 生成 器 ， 即 代码 生成 器 的 生成 器 burg 输出 的 程序 ， 产 生 一 个 树 履 盖 。 树 履 盖 使 
用 文法 规则 的 模式 完全 覆盖 了 每 一 棵 输入 树 ， 这 些 文法 规则 满足 了 每 一 个 模式 在 终结 符 和 非 终结 
符 上 的 限制 。 例 如 图 14-1 给 出 了 下 面 的 树 的 覆盖 : 

ASGNI (ADDPCINDIRP(ADDRLP(p)) ,CNSTI(4)) ,CNSTI(5)) 


该 覆盖 使 用 了 上 述 addr 和 stmt 两 个 规则 及 图 中 显示 的 另外 一 些 规则 。 每 个 节点 旁边 的 规则 
识别 该 覆盖 ， 每 个 阴影 区 域 对 应 大 多 数 机 器 上 的 一 条 指令 。 

描述 指令 集 的 树 文法 经 常 是 有 歧义 的 。 例 如 : 典型 的 寄存 器 自 增 可 以 通过 直接 给 寄存 器 加 1 
实现 ， 也 可 以 通过 把 1 放 到 男 一 个 寄存 器 中 ， 然 后 与 第 一 个 寄存 器 相 加 来 完成 。 我 们 更 希望 选择 
代价 最 低 的 实现 ， 所 以 lec 为 每 个 规则 设 定 了 一 个 代价 值 ， 并 选择 总 代价 最 小 的 树 分 析 。14.2 节 
就 显示 了 标记 有 代价 的 树 。 
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addr: ADDRLP WANBIBIN a 


图 14-1 ASGNI (ADDP(INDIRP(ADDRLP(p)), CNSTI(4)), CNSTI(5)) 的 覆盖 


有 时 在 树 的 下 层 ， 局 部 覆盖 代价 较 少 ， 但 是 从 根 到 局 部 覆盖 的 代价 却 可 能 较 大 ， 使 得 全 树 的 
完整 覆盖 的 代价 变 大 。 当 匹配 一 棵 子 树 时 ， 我 们 并 不 知道 哪 种 匹配 是 全 局 匹配 中 较 好 的 ， 所 以 代 
码 生成 器 在 每 个 节点 处 为 每 个 非 终结 符 记 录 了 最 佳 匹 配 。 这 样 在 树 的 较 高 层 处 就 可 以 任意 选择 所 
有 可 用 的 非 终结 符 ， 甚 至 有 可 能 是 那些 在 较 低 层次 上 代价 较 高 的 非 终 结 符 。 这 种 记录 一 组 方案 然 
后 从 中 选择 一 个 的 技术 称 为 动态 规划 。 

生成 的 代码 生成 器 对 每 个 主题 树 进行 两 遍 扫 描 : 第 一 遍 可 视 为 一 个 采用 自 底 向 上 方式 的 标记 
程序 ， 得 到 一 个 能 以 最 小 代价 覆盖 所 有 子 树 的 模式 集 ; 第 二 遍 可 视 为 一 个 采用 自 顶 向 下 方式 的 化 
简 程序 ， 它 从 第 一 遍 标记 程序 记录 的 模式 集中 选取 代价 最 小 的 覆盖 。 这 样 ， 代 码 生 成 器 就 可 使 用 
代价 最 小 的 模式 生成 代码 。 


14.1 规范 
下 面 的 文法 描述 了 lburg 规范 。term 和 nonterm 分 别 代表 终结 符 和 非 终 结 符 。 


grammar: 
'%{' configuration '%}' { dcl } %% { rule } [ %% C code ] 
dcl: 


%start nonterm 
%term { term = integer } 


rule: 
nonterm : tree template [ C expression | 


tree: 
term [ 'C' tree [ , tree] ')'] 
nonterm 


template: 
“ { any character except double quote } " 


lburg 规范 是 按 行 组 织 的 。 单 词 “%{、“%}” 和 “%%” 必 须 单独 一 行 ， 每 个 del BK rule 必 
须 出 现在 一 行 上 。 configuration 是 C 语 言 代码 ， 它 被 原封 不 动 地 复制 到 BURM 的 开头 。 如 果 有 
第 二 个 “%%”， 那 么 它 之 后 的 正文 也 被 原封 不 动 地 复制 到 BURM 的 末尾 。 

配置 是 BURM 与 被 分 析 的 树 之 间 的 接口 ， 它 把 NODEPTR_TYPE 定义 成 可 见 的 指针 类 型 ， 
该 指针 指向 主题 树 的 节点 。BURM 调用 函数 或 宏 OP_LABEL(p), LEFT_CHILD(p) 和 RIGHT_ 
CHILD(p) 读 取 指针 p 指向 的 节点 的 操作 符 和 子 节点 。 
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BURM 在 主题 树 的 每 一 个 节点 处 计算 并 存储 一 个 void 类 型 的 状态 指针 。 配 置 段 定义 了 宏 
STATE LABEL(p)， 以 访问 p 指 向 的 节点 的 状态 域 。 使 用 宏 是 因为 lburg 需要 将 它 用 作 左 值 ， 另 
外 的 一 些 配 置 操作 也 可 以 作为 宕 或 函数 实现 。 

本 书 的 所 有 lburg 规范 共享 一 种 配置 : 


(burg prefix 293) = 335 362 389 
#include “c,h” 
#define NODEPTR_TYPE Node 
#define OP_LABEL(p) ((p)->op) 
#define LEFT_CHILD(p) ((p)->kids[0]) 
#define RIGHT_CHILD(p) ((p)->kids{1]) 
#define STATE_LABEL(p) ((p)->x.state) 


% start 指示 符 用 来 命名 每 棵 树 的 “ 根 ” 必 须 匹 配 的 非 终结 符 ， 如 果 没 有 %start 指示 符 ， 那 么 
默认 的 开始 符号 就 是 第 一 条 规则 定义 的 非 终结 符 。 

%term 声明 了 终结 符 ， 即 主题 树 中 的 操作 符 ， 每 个 终结 符 对 应 一 个 唯一 的 正 整数 操作 码 。 
OP_LABEL(p) 返回 节点 p 的 有 效 操作 码 。 每 个 终结 符 都 有 固定 的 数字 ， 这 是 lburg 从 使 用 该 终结 
符 的 规则 中 推出 的 。lburg 限定 终结 符 最 多 只 能 有 两 个 子 节点 。 例 如 loc 的 终结 符 声 明 包括 ; 


(terminal declarations 293)= 335 363 389 
‘start stmt 
%term ADDD=306 ADDF=305 ADDI=309 ADDP=311 ADDU=310 
%term ADDRFP=279 
%term ADDRGP=263 
%term ADDRLP=295 
%term ARGB=41 ARGD=34 ARGF=33 ARGI=37 ARGP=39 


图 14-2 给 出 了 lec 的 lburg 规范 的 一 部 分 以 及 大 部 分 机 器 指令 集合 的 子 集 。 第 2 行 和 第 3 行 
声明 了 终结 符 。 


%start stmt 
%term ADDI=309 ADDRLP=295 ASGNI=53 
%term CNSTI=21 CVCI=85 INDIRC=67 


CNSTI 

: ADDRLP 

: ADDI(reg,con) 
con 
reg 
ADDI (reg, rc) 
CVCICINDIRC(Caddr)) 
addr 

: ASGNI(Caddr, reg) 





uga 
Dgn 
ng 
"4" 
" g" 
nee 
” 7" 
sgr 
"g" 


图 14-2 Iburg 规范 示例 


规则 定义 树 模式 时 ， 采 用 了 带 括号 的 前 绥 形 式 。 每 个 非 终结 符 代 表 一 棵 树 ， 链 规则 的 模式 是 
另 一 个 非 终结 符 ， 在 图 14-2 中 ,规则 4、5 和 8 都 是 链 规则 。 

规则 描述 了 目标 机 器 提供 的 指令 集 和 寻 址 方式 。 每 条 规则 有 一 个 汇编 代码 模板 ， 模 板 是 一 
个 带 引 号 的 串 ， 说 明了 当 使 用 该 规则 时 发 送 什么 样 的 代码 。14.6 节 描 “ 述 了 这 些 模板 的 格式 。 在 图 
14-2 中 模板 仅仅 是 规则 号 。 
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规则 的 末尾 是 一 个 可 选 的 代价 值 。 链 规则 的 代价 值 必须 是 常量 ， 而 其 他 规则 就 可 以 使 用 任意 
的 C 表达 式 ， 在 表达 式 中 a 代表 被 匹配 的 节点 。 例 如 ， 规 则 : 


con: CNSTU “"  (a->syms[O0]->u.c.v.u < 256 ? O : LBURG_MAX) 


说 明了 无 符号 常量 车 只 占 一 个 字 节 则 代价 值 为 0， 否 则 为 LBURG_MAX。 所 有 代价 值 必须 在 从 0 
到 LBURG MAX 之 间 (包括 0 和 LBURG MAX 在 内 )，LBURG MAX 定义 为 最 大 的 短 整数 : 


(config.h 277) += 25 
#define LBURG_MAX SHRT_MAX 

默认 的 代价 值 为 0。 推导 的 总 代价 值 为 推导 过 程 中 所 应 用 规则 的 代价 值 的 总 和 。 树 分 析 程 序 寻 找 
主题 树 代价 最 低 的 分 析 ， 它 可 以 尝试 任意 组 合 。 

在 图 14-2 F, con 匹配 常量 ; addr 匹配 可 被 地 址 计算 器 计算 的 树 ， 如 ADDRLP 或 一 个 寄存 
器 与 一 个 常量 求 和 ; rc 匹配 常量 或 reg, reg 匹配 任何 可 被 计算 并 放 进 寄存 器 中 的 树 ; 规则 6 描述 
了 一 个 加 法 指令 ， 第 一 个 操作 数 必 须 为 寄存 器 ， 第 二 个 操作 数 必须 是 寄存 器 或 常量 ， 结 果 存 储 在 
寄存 器 里 ; 规则 7 描述 了 一 个 取 字 节 指 令 ， 扩 展 符号 位 ， 并 把 结果 放 到 寄存 器 中 ; 规则 8 描述 了 
一 个 取 地 址 到 寄存 器 的 指令 ; stmt 匹配 用 于 副作用 的 树 ， 包 括 赋 值 ; 规则 9 描述 了 把 寄存 器 值 存 
到 内 存单 元 中 的 指令 ， 该 单元 按 某 种 寻 址 方式 寻 址 。 


14.2 ”标记 树 

BURM 从 标记 主题 树 开 始 ， 按 照 自 底 向 上 、 从 左 到 右 的 顺序 计算 以 最 小 代价 覆盖 树 的 规则 。 
图 14-3 显示 了 下 面 代码 中 赋值 语句 的 树 : 

{ int i; char c; i = c + 4; } 

图 14-3 中 的 其 他 注释 描述 了 标记 。( N,C,M) 表示 规则 号 为 N 的 规则 M 的 模式 与 节点 匹配 的 
代价 是 Co C 是 规则 右边 的 非 终结 符 、 相 应 模式 或 链 规则 的 代价 之 和 。 


ASGNI (9, 3, stmt: ASGNI(addr,reg)) 
(2, 0, addr: ADDRLP) 


(8, 1, reg: addr) (6, 2, reg: ADDI(reg,rc)) 
(5,1, rc: reg) | ADDRLP ADDI (5, 2, rc: reg) 
i (3, 1, addr: ADDI(Creg,con)) 
(7, 1, reg: CVCICINDIRC(addr)}) CVCI CNSTI 
(5, 1, rc: reg) 4 


(1, 0, con: CNSTI) 
INDIRC (4, 0, re: con) 


ADDRLP (2, 0, addr: ADDRLP) 
C (8, 1, reg: addr) 
(S, 1, rc: reg) 


图 14-3 标记 后 的 i=c+4 的 树 
例如 ， 图 14-2 中 的 规则 2 与 ADDRLP i 节 点 匹配 ， 代 价 为 0， 所 以 该 节点 标记 为 (2，0， 


addr:ADDRLP)。 规 则 8 说 明 只 要 与 addr 匹配 就 可 以 与 reg 匹配 ， 但 代价 值 加 1， 所 以 该 节点 也 
被 标记 为 (8，I，reg:addr)。 规 则 5 说 明 只 要 与 reg 匹配 就 能 与 rc 匹配 ， 且 没有 额外 的 代价 值 ， 
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所 以 该 节点 又 可 被 标记 为 (5,1,rc:reg)。 然 后 ， 树 中 更 高 层 的 匹配 需要 addr， 所 以 不 需要 链 规则 。 
需要 链 规则 的 是 CNSTI 节点 ， 它 只 能 与 con 直接 匹配 ,但 是 它 的 父 节点 需要 re， 只 有 链 规则 记 
录 了 每 个 con 同时 也 是 re。 采 用 自 下 而 上 的 匹配 程序 ， 下 层 并 不 清楚 更 高 层 需要 哪 种 匹配 ， 所 以 
程序 记录 了 所 有 的 匹配 ， 由 自 上 而 下 的 化 简 程 序 选 择 需 要 的 匹配 。 

模式 除了 描述 直接 子 节点 之 外 还 可 以 描述 子 树 。 例 如 ， 图 14-2 中 的 规则 7 就 涉及 了 CVCI 
节点 的 孙 节 点 ， 虽 然 没有 单独 的 模式 与 INDIRC 节点 匹配 ， 但 规则 7 的 模式 覆盖 了 这 个 节点 ， 其 
代价 是 ADDRLPc 与 addr 匹配 (使 用 规则 2) 的 代价 加 1。 

只 有 当 C 的 值 比 规则 M 中 非 终结 符 的 所 有 先前 匹配 都 小 的 时 候 ， 节 点 才 有 标记 (N, C, M)。 
例如 ，ADDI 节点 用 规则 6 匹配 reg， 其 总 代价 是 2; 它 也 用 规则 3 匹配 了 addr， 所 以 使 用 链 规则 
8 得 到 第 二 种 与 reg 的 匹配 ， 其 总 代价 也 是 2， 而 这 些 与 reg 的 匹配 中 只 有 一 个 会 被 记录 。lburg 
可 以 尝试 任意 组 合 ， 所 以 想 要 预测 哪个 匹配 被 记录 下 来 并 不 容易 ， 但 由 于 其 总 代价 都 一 样 ， 所 以 
关系 不 大 。 

lburg 生成 了 函数 : 

(BURM signature295 ) 三 296 

static void _label ARGSCC(NODEPTR_TYPE a)); 
函数 label 对 a 指 向 的 整个 主题 树 进行 标记 。 用 零 状态 来 标记 未 匹配 的 树 ， 这 些 树 可 能 有 语法 错 
误 或 不 合 文法 。 所 有 lburg 生成 的 名 字 都 用 下 划 线 开始 ， 以 避免 与 BURM 的 C 程序 开头 和 结尾 中 
的 名 字 冲 突 。 这 些 标识 符 都 是 静态 的 ， 其 地 址 存放 在 一 个 接口 记录 中 ， 所 以 lce 可 以 包含 多 个 代 
码 生 成 器 。 下 面 的 程序 片段 为 结构 声明 符 收集 了 所 有 标识 符 的 声明 : 


(interface to instruction selector 295) = 278 
void (*_label) ARGS((Node)); 


另 一 个 片段 为 记录 了 静态 名 字 的 C 初始 化 表达 式 收 集 名 字 : 


(Xinterface initializer 277) += 21 336 363 390 
_label, 
由 lburg 在 BURM 中 定义 的 其 他 标识 符 ， 在 上 面 两 个 程序 片段 中 都 有 相应 的 人 口 ， 本 书 不 再 
重复 介绍 。 


14.3 化 简 树 


BURM 的 标记 程序 自 底 向 上 遍历 主题 树 。 由 于 无 法 预测 上 层 节 点 将 匹配 哪 条 规则 ， 也 不 知道 
规则 需要 哪些 非 终结 符 ， 因 此 ，BURM 采用 动态 规划 的 方法 ， 为 所 有 的 非 终结 符 都 记录 了 最 佳 匹 
配 。 标 记 对 规则 号 进行 了 编码 ， 形 成 一 个 向 量 ， 每 个 非 终结 符 对 应 一 个 向 量 。lburg 创建 了 一 个 
_state 结构 类 型 ， 函 数 label 将 每 个 非 终 结 符 的 最 佳 (N,C,M) 存储 在 _state 结构 中 : 

struct _state { 


short cost[MAX_NONTERMINALS] ; 
short rule[MAX_NONTERMINALS] ; 


cost 向 量 为 每 个 非 终结 符 存储 了 最 佳 匹配 的 代价 ， 而 rule 向 量 存储 了 实现 该 代价 的 规则 号 。( 其 实 
上 述 声 明 中 的 一 部 分 与 实际 情况 不 一 样 ， 但 也 没有 什么 问题 : burg 实际 上 是 使 用 位 域 压缩 了 rule 
域 ， 但 是 lburg 又 提供 了 函数 来 提取 这 些 域 ， 所 以 就 不 必 浪 费时 间 来 分 析 这 些 编码 了 。) 
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Iburg 提供 了 函数 rule, _rule 接受 树 的 状态 标记 和 一 个 表示 非 终 结 符 的 整数 作为 参数 : 


(BURM signature 295)+= 395 296 
static int _rule ARGS(C(void *state, int nt)); 

该 函数 根据 给 定 的 非 终结 符 ， 从 标记 编码 的 规则 号 向 量 中 提取 某 个 左边 带 有 该 非 终结 符 的 规则 的 
序号 ， 如 果 没 有 规则 与 给 定 的 非 终结 符 匹配 ， 则 返回 0。 

BURM 的 第 二 遍 扫 描 程 序 ， 也 称 为 化 简 程 序 ， 自 上 而 下 遍历 主题 树 ， 所 以 它 能 够 处 理 标 记 程 
序 遗 漏 的 上 下 文 信息 。 树 的 根 必须 匹配 起 始 非 终结 符 ， 所 以 ,化 简 程 序 从 根 节点 标记 编码 的 规则 
号 向 量 中 ， 为 起 始 非 终结 符 提取 最 佳 规则 。 如 果 规 则 模式 包括 非 终结 符 ， 那 么 它们 会 识别 要 继续 
化 简 的 新 边界 以 及 与 该 边界 匹配 的 非 终 结 符 。 这 样 ， 从 根 开 始 不 断 递 归 ， 就 能 找到 整 棵 树 的 最 佳 

盖 。 下 面 显示 了 图 14-3 的 这 个 过 程 ; 


_rule(root, stmt) = 9 
_rule(root->kids[0], addr) = 2 
_rule(root->kids[1], reg) = 6 
_rule(root->kids[1]->kids[0], reg) = 7 
_rule(root->kids[1]->kids[0]->kids[0]->kids[0], addr) = 2 
_rule(root->kids[{1)->kids[1], rc) = 5 
_rule(root->kids[1]->kids[1], con) = 1 


每 个 规则 的 模式 都 为 所 有 的 递归 调用 识别 出 主题 子 树 和 非 终 结 符 。 在 这 里 ， 子 树 并 不 一 定 
是 当前 节点 的 直接 子 节点 。 带 有 内 部 操作 符 的 模式 将 导致 化 简 程序 跳 过 相应 的 主题 节点 ， 而 直接 
到 达 其 孙 节 点 、 曾 孙 节 点 等 。 另 一 方面 ， 链 规则 使 化 简 程 序 以 新 的 非 终结 符 再 次 访问 当前 主题 节 
点 ， 所 以 x 也 可 视 为 其 本 身 的 子 树 。 


lburg 用 1 来 表示 起 始 非 终结 符 ， 所 以 为 了 初始 的 根 结 点 层 而 调用 rule AY, nt 必须 是 1。 
BURM 定义 并 初始 化 了 一 个 数组 ， 该 数组 标识 用 于 幅 套 调用 的 值 : 
(BURM signature 295) += 296 297 


static short *_nts[]; 


_nts 是 一 个 由 规则 号 索引 的 数组 。 每 个 元 素 指向 一 个 以 0 结尾 的 短 整 数 向 量 ， 按 照 从 左 到 右 
的 顺序 表示 规则 模式 的 非 终 结 符 。 例 如 ， 下 面 的 代码 实现 了 图 14-2 的 _nts: 


Static 
Static 
static 
static 
static 
static 
static 


short _ri_nts[] = { 0 }; 
short _r3_nts[] = { 
short _r4_nts[] = 
short _r5_nts[] = 
short _r6_nts[] = 
short _r7_nts[] = 
short _r9_nts[]} = 


A re eS 


short *_nts{] = { 
/* (no rule zero) */ 
= ntsy /* con: CNSTI */ 

-ri nts, /* addr: ADDRLP */ 
nts, /* addr: ADDI(reg,con) */ 
rants, A Fe: ‘een, *7 


0, 


2 


el 


nts, 7* Fre: reg */ 
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_r6_nts, /* reg: ADDI(reg,rc) */ 
_r7_nts, /* reg: CVCICINDIRC(addr)) */ 
_r7_nts, /* reg: addr */ 

_r9_nts, /* stmt: ASGNI(addr,reg) */ 


}; 
写 一 个 完整 的 化 简 程 序 只 需要 rule 和 _nts， 但 是 通过 增加 _kids 则 可 以 简化 许多 应 用 : 
(BURM signature 295) += 6 393 


static void _kids 
ARGS((NODEPTR_TYPE p, int rulenum, NODEPTR_TYPE kids[])); 

_kids 接受 树 p 的 地 址 、 规 则 号 以 及 一 个 由 指向 树 的 指针 组 成 的 空间 量 。 该 过 程 假设 p 与 所 给 的 
规则 匹配 ， 并 将 p 的 子 树 上 (其 意义 如 前 所 述 ) 填 和 向量， 这 些 子 树 必 须 是 递归 化 简 后 的 。kids 不 
以 null 结束 。 

下 面 的 代码 显示 了 最 小 的 化 简 程序 ， 它 自 下 而 上 ， 从 左 至 右 遍 历 了 最 佳 覆 盖 ， 但 是 在 遍历 的 
过 程 中 没有 任何 操作 。parse 函数 先 对 树 做 标记 ， 然 后 开始 化 简 。reduce 函数 从 rule 中 获得 匹配 
的 规则 号 ， 从 _kids 中 获得 匹配 的 边界 ， 从 _nts 中 得 到 用 于 递归 调用 的 非 终 结 符 。 


parse(NODEPTR_TYPE p) { 
_label(p); 
reduce(p, 1); 

} 


reduce(NODEPTR_TYPE p, int nt) { 
int i, rulenum = _rule(STATE_LABEL(p), nt); 
short *nts = _nts[rulenum]; 
NODEPTR_TYPE kids[10]; 


-kids(p, rulenum, kids); 
for (i = 0; nts[i]; i++) 
reduce(kidsf[i], nts[i]); 
} 
这 个 特殊 的 化 简 程 序 没有 对 任何 节点 进行 操作 。 如 果 节 点 按照 前 序 进行 了 处 理 一 一 如 产生 代码 或 
分 配 了 一 个 寄存 器 ， 那 么 处 理 代码 将 从 化 简 程序 的 开头 运行 。 后 序 处 理 代码 在 化 简 程序 的 末尾 开 
始 运行 ， 顺 序 代码 将 自动 在 reduce 的 递归 调用 之 间 运 行 。 化 简 程 序 可 以 以 任何 顺序 递归 遍历 子 
树 ， 也 可 以 在 递归 遍历 中 穿插 执行 其 他 任何 操作 。 
可 以 以 多 种 方式 实现 化 简 程 序 ， 比 如 多 遍 扫 描 算 法 或 者 独立 的 单 遍 扫 描 算 法 。lcc 有 3 个 化 
简 程 序 ， 一 个 用 来 识别 需要 寄存 器 的 节点 ， 第 二 个 产生 代码 ， 第 三 个 在 调试 时 输出 树 的 覆盖 。 它 
们 全 都 使 用 getrule， 该 函数 以 断言 (assertion ) 方式 将 _rule 打包 ， 并 通过 IR 封装 间接 地 址 : 
(gen.c functions)+= 289 298 


static int getrule(p, nt) Node p; int nt; { 
int rutenum; 


rulenum = (*IR->x._rule)(p->x.state, nt); 
return rulenum; 


} 
第 一 个 化 简 程序 是 为 寄存 器 分 配 准备 的 ， 它 对 最 小 的 化 简 程序 进行 了 扩充 ， 以 标记 那些 由 指 
令 计算 的 节点 ， 这 些 节 点 可 能 需要 寄存 器 : 
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(gen.c functions) += 297 299 
static void reduce(p, nt) Node p; int nt; { 
int rulenum, i; 
short *nts; 
Node kids[10]; 


p = reuse(p, nt); 

rulenum = getrule(p, nt); 

nts = IR->x._nts[rulenum]; 

(*IR->x._kids)(p, rulenum, kids); 

for (i = 0; nts[i]; i++) 
reduce(kids[i], nts{i]); 

if (IR->x._isinstruction[rulenum]) { 
p->x.inst = nt; 
{count uses of temporaries 299) 

} 

} 


这 里 ，x_isinstruction 中 的 lburg 标记 规定 产生 指令 的 规则 ， 这 些 规则 与 那些 产生 子 指令 (比如 寻 
址 方式 指令 ) 的 规则 不 同 ， 这 些 功能 都 是 通过 测试 汇编 程序 模板 实现 的 ， 这 将 在 14.6 节 介 绍 。 

上 面 的 x.inst 不 只 是 一 个 标记 ， 它 还 指明 负责 处 理 该 标记 的 非 终结 符 。 寄 存 器 分 配 程 序 将 指 
令 树 线性 化 ， 产 生 器 每 次 化 简 一 条 指令 ， 所 以 产生 器 需要 记录 用 于 指令 化 简 的 非 终 结 符 。 

reduce 与 reuse 合作 恢复 过 度 删 除 掉 的 公共 子 表达 式 。 前 端 为 公共 子 表达 式 分 配 了 临时 变 
量 ， 通 过 引用 这 些 临 时 变量 来 避免 重复 计算 ， 但 这 在 某 些 方面 增加 了 代价 。 举 个 例子 ，MIPS 的 
寻 址 硬件 可 以 无 任何 代价 地 给 寄存 器 增加 一 个 16 位 常量 ， 所 以 当 这 样 的 和 只 是 作为 一 个 地 址 来 
使 用 的 时 候 〈 即 用 于 访问 存储 器 的 指令 时 )， 把 和 放 进 寄存 器 里 只 是 增加 一 条 指令 并 多 用 了 一 个 寄 
存 器 。 

所 以 Iburg 扩充 了 标记 程序 ， 以 寻找 读 取 寄 存 器 的 树 ，INDIRx(VREGP)。 如 果 寄 存 器 中 有 一 
个 公共 子 表达 式 并 且 表 达 式 可 能 更 适合 重新 计算 ， 那 么 标记 程序 就 用 额外 匹配 来 扩展 标记 ， 这 些 
匹配 就 是 分 配给 临时 变量 的 表达 式 的 所 有 自由 匹配 的 集合 。 

例如 ,考虑 代码 p->b=q->b, p 在 寄存 器 23 中 ，q 在 寄存 器 30 中 ， 域 b 的 偏 移 量 为 4。 图 
14-4 显示 了 树 的 中 间 代 码 。 


INDIRP INDIRI ADDP 常规 匹配 


VREGP VREGP INDIRP INDIRI "reg: INDIRI(VREGP) 
p con: CNSTI 


VREGP VREGP ace 
q 3 


图 14-4 p->b=q->b 中 过 度 删 除 的 公共 子 表达 式 


第 一 棵 树 把 公共 子 表 达 式 4 复制 到 一 个 临时 变量 ， 第 二 棵 树 再 一 次 使 用 临时 变量 来 完成 语 
句 。INDIRI 节点 的 第 一 个 标记 由 一 个 典型 的 模式 匹配 产生 ， 但 第 二 个 标记 就 是 由 一 个 额外 匹配 
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产生 。 若 没有 这 个 额外 匹配 ，lce 的 代码 生成 器 将 产生 5 条 指令 : 


la $25,4 取 常 量 4 到 寄存 器 25 

add $24,$30,$25 ”计算 q->b 的 地 址 并 存 到 寄存 器 24 
lw $24,($24) 取 q->b 的 值 到 寄存 器 24 

add $25,$23,$25 ”计算 p->b 的 地 址 并 存 到 寄存 器 25 
sw $24,($25) FE q->b 的 值 到 p->b 


该 额外 匹配 启用 了 另外 几 个 匹配 ， 总 共 节 省 了 3 条 指令 和 一 个 寄存 器 : 


lw $24,4($30) 取 i 的 值 到 寄存 器 24 
sw $24,4($23) 存储 寄存 器 24 到 x[0] 


lee 的 化 简 程序 调用 reuse(p,nt) 来 检查 使 用 非 终结 符 nt 的 p 节 点 的 化 简 是 否 用 到 额外 匹配 ， 
WR, reuse 就 返回 一 个 公共 子 表达 式 而 不 是 p， 此 时 ， 化 简 程 序 就 对 公共 子 表达 式 进 行 后 处 理 ， 
并 忽略 临时 变量 : 
(gen.c functions) += e 390 
static Node reuse(p, nt) Node p; int nt; { 
struct _state { 
short cost[1]; 
F3 
Symbol r = p->syms[RX]; 


if (generic(p->op) == INDIR && p->kids[0]->op == VREG+P 
&& r->u.t.cse && p->x.mayrecalc E 
&& ((struct _state*)r->u.t.cse->x.state)->cost[nt] == 0) 
return r->u.t.cse; 
else 
return p; 
} 
第 一 个 返回 语句 有 效 地 忽略 了 树 p， 重 用 公共 子 表达 式 的 定义 。 如 果 p 使 用 了 公共 子 表达 式 ， 那 
么 该 子 表达 式 肯 定 已 经 被 标记 过 ， 所 以 调用 reuse 的 化 简 程 序 并 不 会 漫 无 目标 。 如 果 要 获得 非 终 
结 符 nt 与 树 进行 匹配 的 代价 ， 上 述 _state 的 类 型 转换 是 不 可 避免 的 措施 。 除 了 这 里 ， 本 书 其 他 地 
方 没有 再 介绍 state 记录 的 形式 ， 它 只 用 于 根据 lburg 规范 而 自动 生成 的 代码 。 只 要 理解 了 标记 就 
很 容易 理解 它 了 。 实 际 的 、 与 目标 相关 的 代价 向 量 的 长 度 在 这 里 并 不 知道 ， 也 不 需要 知道 ， 所 以 
声明 中 可 假设 长 度 为 1。 
reduce 还 计算 了 每 个 临时 变量 剩余 的 使 用 次 数 : 
(count uses of temporaries 299)= 298 
if (p->syms[RX] && p->syms[RX]->temporary) { i 
p->syms[RX]->x.usecount++; 
} 
如 果 reuse 留 下 了 不 再 使 用 的 临时 变量 ， 那 么 寄存 器 分 配 程序 将 删 去 装载 该 临时 变量 的 代码 。 
最 早 的 reuse 版 本 是 通过 每 次 处 理 一 个 类 型 后 级 来 实现 的 ， 这 说 明了 至 少 在 一 些 C 程序 中 什 
么 是 真正 重要 的 。lcc 有 一 个 测试 平台 ， 该 测试 平台 包含 18 个 程序 ， 大 概 9000 行 。 并 且 还 保存 
了 这 些 程序 标准 的 汇编 程序 代码 ， 以 便 每 次 改变 Ico 时 与 新 代码 做 比较 。reuse 第 一 次 消减 只 消除 
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带 有 类 型 后 绥 工 的 空闲 公共 子 表 达 式 ， 在 MIPS 测试 平台 上 它 减 少 了 58 AHS. MIRC S, 
D、F、B 并 不 能 减少 任何 指令 ,但 是 增加 后 缀 P 就 可 节约 382 条 指令 。 
即使 其 中 一 个 输入 改变 了 ， 公 共 子 表达 式 也 不 能 重新 计算 。 在 允许 一 个 额外 匹配 之 前 ， 标 记 程 
序 调用 mayrecale 进一步 证 实 该 公共 子 表达 式 可 以 被 重新 计算 ， 并 把 结果 记录 在 xmayrecalc HP: 
(gen.c functions) += 299 390 


int mayrecalc(p) Node p; { 
Node q; 


(mayrecalc 300) 


如 果 节 点 不 表示 公共 子 表 达 式 ，mayrecalc 就 会 返回 假 : 


(mayreca1c300 ) 三 300 300 
if (!p->syms[RX]->u.t.cse) 
return 0; 


如 果 森 林 中 靠 前 的 任何 一 棵 树 改变 了 公共 子 表达 式 的 输入 ，mayrecalc 也 返回 假 : 


(mayrecalc300)+= 300 300 300 
for (q = head; q && q->x. listed; q = q->link) 本 
if (generic(q->op) == ASGN 
&& trashes(q->kids[0], p->syms[RX]->u.t.cse)) 


return 0; 
如 果 两 个 条 件 都 不 满足 ， 那 么 公共 子 表达 式 就 能 安全 地 被 重新 计算 了 : 
(mayrecalc 300)+= 300 300 
p->x.mayrecalc = 1; 
return 1; 
trashes (p, q) 遍历 公共 子 表达 式 q， 并 报告 赋值 的 目标 p 是 否 在 q 中 被 读 取 : 
(gen.c functions) += 300 390 
static int trashes(p, q) Node p, q; { 
if Clq) 
return 0; 
else if (p->op == q->op && p->syms[0] == q->syms[0]) 
return 1; 
else 


return trashes(p, q->kids[0]) 
|] trashes(p, q->kids[1]); 
} 


reduce 及 其 辅助 程序 执行 完毕 后 ，gen 调用 prune。 它 使 用 x.inst 标记 为 x.kids 域 中 的 最 新 指 
令 构 造 一 棵 树 。 接 着 运行 寄存 器 分 配 程序 ， 只 有 指令 需要 寄存 器 ， 其 余 节 点 不 需要 寄存 器 ( 例 
如 ，ADDP 节点 由 寻 址 硬件 自动 计算 )， 所 以 lce 不 把 这 些 节点 放 在 寄存 器 分 配 程序 可 见 的 树 
中 。 初 始 的 树 仍 保存 在 kids 域 中 。 调 用 prune 之 后 执行 一 个 化 简 程序 ， 但 prune 本 身 并 不 是 化 简 
程序 : 

(gen.c functions) += S ay? 


static Node *prune(p, pp) Node p, ppl]; { 
{prune 301 ) 


REPRISE 301 


pp 指向 某 个 节点 的 xkids 向 量 中 的 一 个 元 素 ， 也 就 是 下 一 个 即将 被 填充 的 元 素 5 p 指向 将 被 前 枝 
的 树 。 如 果 p 表示 一 条 指令 ,那么 prune 就 把 指令 存储 到 *pp 中 ， 并 返回 pp+1， 即 指向 下 一 个 空 
单元 。 和 否则 ，prune 什么 都 不 存 ， 返 回 pp， 也 不 向 前 进 。 

如 果树 p 是 空 的 ，prune 的 工作 如 下 : 

(prune 301)= 301 300 


if (p == NULL) 
return pp; 


否则 ，prune 清除 节点 的 x.kids 域 中 的 无 用 元 素 : 


(prune 301 ) 十 三 301 301 300 
p->x.kids[0] = p->x.kids[1] = p->x.kids[2] = NULL; 


如 果 p 不 是 一 条 指令 ，prune 将 会 在 子 树 中 寻找 指令 ， 从 第 一 个 子 节点 开始 ; 


(prune 30))+= 301 301 300 
if (p->x.inst == 0) 
return prune(p->kids[1], prune(p->kids[0], pp)); 


每 次 递归 调用 都 能 存储 0 AERA ARIES. ERREA prune 返回 pp 上 的 累积 结果 。 
如 果 p 是 一 个 设置 临时 变量 的 指令 ， 而 且 临 时 变量 的 x.usecount 小 于 2， 那 么 临时 变量 将 被 
该 指令 置 值 ， 但 这 个 值 不 会 再 使 用 ， 因 此 可 以 忽略 该 指令 ， 按 上 述 方式 继续 遍历 树 : 
(prune 301 )+= 01 301 300 
else if (p->syms[RX] && p->syms[RX]->temporary 
&& p->syms[RX]->x.usecount < 2) { 
p->x.inst = 0; 
return prune(p->kids[1], prune(p->kids(0], pp)); 


记 住 ，reduce 刚刚 计算 了 x.usecount 的 值 。 

如 果 上 述 条 件 没 有 一 个 满足 ，p 就 是 一 条 必需 的 指令 ，prune 把 它 存 储 在 *pp 中 ， 并 返回 下 
一 个 待 设置 的 元 素 的 地 址 。prune 还 剪 去 该 节点 的 子 树 ， 并 将 其 所 有 指令 存储 在 p 的 x.kids 域 中 ， 
这 是 因为 在 这 条 指令 之 后 的 任何 一 条 指令 一 定 是 p 的 子 树 ， 而 不 是 pp 指向 的 比 p 更 高 层 的 节点 。 


(prune 301)+= 31 300 
else { 
prune(p->kids[1]), prune(p->kids[0], &p->x.kids[0])); 
*pp = p; 


return pp + 1; 


prune 增加 了 pp 的 值 ， 然 后 将 另 一 个 p 存放 到 pp 所 指 的 单元 中 。 这 个 过 程 不 会 执行 过 头 ， 因 为 
x.kids 的 长 度 足 以 处 理 目标 指令 能 访问 的 寄存 器 的 最 大 值 ， 该 值 与 任意 指令 ( 即 任何 代码 ) 可 拥 
有 的 子 节点 数 相 同 。 理 论 上 prune 遵循 这 种 断言 ， 但 是 如 果 要 做 检查 ， 还 需要 增加 至 少 一 个 供 断 
言 读 取 的 参数 。 

图 14-5 中 的 虚线 表示 prune 在 图 14-3 中 的 树 上 增加 的 x.kids， 而 ASGNI, ADDI, CVCI # 
指令 ， 剩 余 节 点 是 子 指令 ， 这 在 当前 许多 机 器 中 是 存在 的 : CVCI 取 字 节 并 扩展 符号 位 ，ADDI 
加 4，ASGNI 存 储 结果 。 实 线 是 kids。 
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图 14-5 图 14-3 前 枝 后 


下 面 显示 了 对 prune 的 调用 过 程 ， 这 些 调 用 在 虚线 被 创建 时 进行 ，p 为 0 时 不 进行 调用 ， 并 
且 用 节点 的 操作 码 来 命名 节点 ， 从 而 减少 了 混乱 : 


prune(ASGNI, &dummy) called 
prune(ADDRLP, &ASGNI->x.kids[0]) called 
prune(ADDI, &ASGNI->x.kids[0]) called 
prune(CVCI, &ADDI->x.kids[0]) called 
pruneCINDIRC, &ADDI->x-.kids[0]) called 
prune(ADORLP, &ADDI->x.kids[0]) called 
prune(CVCI, &ADDI->x.kids[0]) points the ADDI at the CVCI 
prune(CNSTI, &ADDI->x.kids[1]) called 
prune(ADDI, &ASGNI->x.kids[0]) points the ASGNI at the ADDI 
prune(ASGNI, &dummy) points dummy at the ASGNI 
gen 调用 prune 并 提供 一 个 哑 元 (dummy) 单元 来 接收 指向 最 高 层 指 令 的 指针 。 因 为 根 是 作为 副 作 
用 而 被 执行 的 ， 故 仅 需 要 一 个 哑 元 单元 就 足够 了 ， 而 且 根 一 定 是 一 条 指令 ，gen 不 必 检 测 dummy 
就 可 以 知道 根 在 哪里 。 


14.4 代价 函数 


在 lburg 规范 中 大 多 数 代价 值 都 是 常量 ， 但 也 有 一 些 代 价值 依赖 于 被 匹配 节点 的 性 质 。 例 如 ， 
把 一 个 常量 加 到 另 一 个 操作 数 的 指令 ， 其 代价 值 就 取决 于 这 个 常量 是 否 能 够 存储 在 指定 位 中 。 对 
于 存储 常量 的 节点 p 来 说 (节点 ADDRL 和 ADDRF 存 有 栈 偏 移 常量 ， 节 点 CNST 保存 数字 常 
Ht), range(p, lo, hi) 决定 常量 是 否 在 整数 lo 和 hi 之 间 (包括 lo 和 hi)。 如 果 在 lo 和 hi 之 间 ， 
range 就 返回 一 个 零 代 价值 ， 否 则 返回 一 个 较 大 的 代价 值 ， 促 使 树 分 析 程 序 使 用 其 他 匹配 。 在 一 
个 Iburg 代价 表达 式 中 ，a 表示 匹配 的 节点 ， 也 就 是 计算 代价 表达 式 时 传递 给 _label 的 参数 ， 一 个 
典型 的 应 用 是 : 


con8: CNSTI "Xa" range(a, -128, 127) 


上 述 规则 匹配 所 有 的 CNSTI 节 点， 但 是 如 果 和 常量 不 能 放 和 人 8 位 有 符号 域 中 ; 那么 代价 值 就 不 为 
0. range 的 实现 如 下 : 


(gen.c functions) += 360 393 
#define ckCi) return (i) ? 0 : LBURG_MAX 


FOR 8 H¢S 303 


int range(p, lo, hi) Node p; int lo, hi; { 
Symbol s = p->syms[0]; 


switch (p->op) { 
case ADDRFP: ck(s->x.offset >= lo && s->x.offset <= hi); 
case ADDRLP: ck(s->x.offset >= lo && s->x.offset <= hi); 
case CNSTC: ck(s->u.c.v.sc >= lo && s->u.c.v.sc <= hi); 
case CNSTI: ck(s->u.c.v.i >= lo && s->u.c.v.i <= hi); 
case CNSTS: ck(s->u.c.v.ss >= 10 && s->u.c.v.ss <= hi); 
case CNSTU: ck(s->u.c.v.u >= lo && s->u.c.v.u <= hi); 
case CNSTP: ck(s->u.c.v.p == 0 && lo <= 0 & hi >= 0); 
} 
return LBURG_MAX; 

} 


对 无 符号 字符 常量 来 说 ，range 应 该 将 u.c.v.uc 的 值 进 行 零 扩展 ， 而 不 是 对 u-c.v.sc 进行 符号 扩展 。 
但 是 range 的 简化 处 理 并 不 会 有 问题 ， 因 为 节点 CNSTC 只 出 现在 ASGNC 的 右边 ，ASGNC 忽略 
了 扩展 位 。 如 果 不 进行 简化 处 理 ， 就 需要 将 CNSTC 按照 有 符号 变量 和 无 符号 变量 两 种 情况 分 别 
处 理 。 无 符号 短 常量 的 处 理 与 上 面 一 样 。 


14.5 调试 

lburg 根据 经 过 编码 的 输入 规范 ， 对 树 分 析 程 序 进行 扩充 。 从 严格 意义 上 讲 ， 这 种 扩充 并 非 
是 必需 的 ， 但 它 有 助 于 产生 调试 所 需 的 信息 。 例 如 ， 向 量 opname 和 arity 为 每 一 个 终结 符 分 别 
保存 了 子 节点 的 名 字 和 编号 : 


(BURM signature 295) += 297 304 
static char *_opname[]; 
static char aritv[1: 


_opname 和 _arity 都 是 按照 终结 符 的 整数 操作 码 进行 索引 的 。lcc 在 函数 dumptree 中 使 用 了 
这 些 数 据 ，dumptree 打印 操作 符 和 所 有 子 树 ， 子 树 显 示 在 圆 括号 中 ， 并 用 逗号 隔 开 : 


(gen.c functions) += 302 394 
static void dumptree(p) Node p; { 
fprint(2, "%s(", IR->x._opname[p->op]); 
if CIR->x._arity[p->op] == 0 && p->syms[0]) 
fprint(2, "%s", p->syms[0]->name) ; 
else if (IR->x._arity[p->op] == 1) 
dumptree(p->kids[0]); 
else if (IR->x._arity[p->op] == 2) { 
dumptree(p->kids[0]); 
foOFINtC2Z, “ars: 
dumptree(p->kids[1]); 
} 
fprint(2, ")"); 
} 


对 叶 节 点 来 说 ， 如 果 p->syms[0] 存在 ，dumptree 就 添加 它 。 对 于 图 14-3 中 的 树 ， 其 输出 如 下 : 
ASGNI(ADDRLP(i), ADDICCVCICINDIRC(ADDRLP(c))), CNSTI(4))) 
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lcc 使 用 了 dumptree， 因 其 意义 不 大 ， 本 书 省 略 了 相关 调用 。 但 是 dumptree 本 身 值得 介绍 一 下 ， 
看 看 lburg 是 如 何 支 持 调试 的 。 
向 量 string 保存 了 每 个 规则 的 文本 。 


(BURM signature 295) += 303 305 
static char *_string[]; 


它 是 按 规则 号 进行 索引 的 。 化 简 程序 dumpcover 扩充 了 最 小 的 化 简 程序 ， 并 利用 _ string 逐 层 缩 
进来 显示 树 履 盖 。 


(gen.c functions) += 303 395 
static void dumpcover(p, nt, in) Node p; int nt, in; { 
int rulenum, i; 
short *nts; 
Node kids[10]; 


p = reuse(p, nt); 

rulenum = getrule(p, nt); 

nts = IR->x._nts[rulenum]; 

fprint(2, “dumpcover(%x) =", p); 

for (i = 0; i < in; i++) 
ferintt2, Y; 

dumprule(rulenum) ; 

(*IR->x._kids)(p, rulenum, kids); 

for (i = 0; nts[i]; i++) 
dumpcover(kids[i}, nts[i], in+1); 

} 


static void dumprule(rulenum) int rulenum; { 
fprint(2, "%s / %s", IR->x._string[rulenum], 
IR->x._templates[rulenum)); 
if (lIR->x._isinstruction[rulenum]) 
fprint(2, "\n"); 
} 


当 编译 图 14-3 AY MIPS 代码 时 ，dumptree 显示 如 下 : 


dumpcover(1001e9b8) = stmt: ASGNI(addr, reg) / sw $%2,%1 
dumpcover(1001e790) = addr: ADDRLP / %a($sp) 
dumpcover(1001e95c) = reg: addr / la $%c,%1 
dumpcover(1001e95c) = addr: ADDI(reg, con) / %2($%1) 
dumpcover(1001e8a4) = reg: CVCICINDIRC(addr)) / 1b $%c,%1 
dumpcover(1001le7ec) = addr: ADDRLP / %a($sp) 
dumpcover(1001e900) = con: CNSTI / %a 
下 一 节 将 解释 x._templates 和 每 个 规则 后 的 汇编 程序 模板 。 

14.6 ”发送 器 


lee A&A (emitter) 的 作用 是 为 目标 机 器 输出 汇编 程序 代码 。 发 送 器 不 依赖 于 目标 机 器 ， 由 
两 个 描述 与 机 器 相关 数据 的 数组 驱动 。lburg 为 每 个 BURM 生成 一 些 C 程序 代码 ， 用 来 声明 并 初 
始 化 这 两 个 数组 。 两 个 数组 都 是 通过 规则 号 来 索引 的 ， 其 中 一 个 数组 为 规则 生成 模板 : 


it fo Rik 1S o 


(BURM signature 295)+= 364 305 
static char *_templatef]; 


男 一 个 数组 标记 与 指令 对 应 的 模板 ， 以 区 别 于 子 指令 (如 寻 址 方式 ): 


(BURM signature 295)+= 305 316 
static char _isinstruction[]; 
Iburg 从 1 开始 为 规则 编号 ， 并 通过 返回 规则 号 来 报告 匹配 情况 ， 这 样 当 需要 的 时 候 就 可 以 找到 
相应 的 模板 。 如 果 模 板 以 一 个 换行 字符 结尾 ， 那 么 lburg 就 假设 它 是 一 条 指令 ， 否 则 就 必然 是 某 
条 指令 的 一 部 分 ， 比 如 是 一 个 操作 数 。 
emitasm 对 规则 结构 及 其 汇编 程序 代码 模板 进行 了 解释 : 
(gen.c functions) += 304 307 
static unsigned emitasm(p, nt) Node p; int nt; { 
int rulenum; 
short *nts; 


char *fmt; 
Node kids[{10]; 


p = reuse(p, nt); 

rulenum = getrule(p, nt); 

nts = IR->x._nts[rulenum]; 

fmt = IR->x._templates[rulenum] ; 

(emi tasm 305 ) 

return 0; 

} 

emitasm 是 另 一 个 化 简 程 序 ， 它 处 理 部 分 线性 化 的 树 。 列 表 的 元 素 是 指令 子 树 的 根 。emitasm 递归 
调用 自身 以 处 理 地 址 计算 之 类 的 子 指令 。emitasm 的 遍历 从 一 个 指令 开始 ， 当 递归 到 达 为 该 指令 
提供 值 的 指令 时 结束 。 也 就 是 说 ，emitasm 的 化 简 是 追踪 指令 内 的 树 分 析 ， 这 个 分 析 与 寻 址 方式 
及 指令 内 的 其 他 计算 相对 应 。emitasm 由 emit 调用 ，emit 确保 emitasm 以 正确 的 顺序 来 处 理 这 些 
指令 ， 这 样 便 可 处 理 指令 间 的 顺序 。 

当 产 生 节点 的 代码 时 ，emit 设置 x.emitted 来 标记 已 生成 的 节点 。 当 emitasm 遇 到 已 生成 的 指 
令 时 ， 仅 生成 存放 有 该 指令 结果 的 寄存 器 名 。 对 所 有 产生 值 的 节点 来 说 ， 寄 存 器 分 配 程序 已 经 在 
p->syms[RX] 中 记录 了 目标 寄存 器 。 

(emitasm305) 三 305 305 


if (IR->x._isinstruction[rulenum] && p->x.emitted) 
outs (p->syms [RX] ->x.name) ; 


如 果 模 式 以 # 开 头 ， 生 成 器 就 调用 emit2， 它 是 一 个 与 目标 机 器 相关 的 过 程 : 
(emi tasm 305 ) 十 三 305 305 305 
else if (*fmt == '#') 
(*IR->x.emit2)(p); 
lee 需要 这 种 转 义 符 为 诸如 结构 参数 之 类 的 复杂 情况 生成 各 种 代码 ， 否 则 ，emitasm 就 需要 一 些 解 
释 来 产生 模板 : 
(emitasm 305 ) 十 三 305 305 


else { 
(omit leading register copy? 306) 
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for ((*IR->x._kids)(p, rulenum, kids); *fmt; fmt++) 

Tt (Sfmt f= ° S 
*bp++ = *fmt; 

else if (*++fmt == 'F') 
print("%d", framesize); 

etse if (*fmt >= ‘0° && *fmt <= '9') 
emitasm(kids[*fmt - 'O'], nts[*fmt - '0'}); 

else if (*fmt >= ‘a’ && *fmt < 'a' + NELEMS(p->syms)) 
outs(p->syms[*fmt - ‘a']->x.name); 

else 
*bp++ = *fmt; 

} 


bp 是 指向 output.c 模块 中 输出 缓冲 区 的 指针 。%F 使 得 emitasm 生成 famesize， 这 样 有 助 于 生成 

相对 于 帧 大 小 的 局 部 偏 移 量 。%digit 形式 的 子 串 使 得 emitasm 递归 生成 与 模板 的 第 digit 个 非 终 结 

符 相 对 应 的 子 树 ， 子 树 从 0 开始 计数 ， 从 左 到 右 ， 并 忽略 垦 套 。%x 形式 的 子 串 让 emitasm 生成 

节点 的 p->syms['x' 一 ,'a"]->x.name。 例 如 ，%c 生成 p->syms[2] ->x.name， 表 14-1 总 结 了 这 些 约定 。 
表 14-1 产生 器 模板 语法 


模板 产生 内 容 
%% 二 个 % 
%F framesize 
Ydigit 对 应 规则 的 第 digit 个 非 终结 符 的 子 树 
%letter p->syms[letter-'a']->x.name 
任何 其 他 字符 字符 本 身 
以 # 打头 调用 emit2 以 产生 代码 
以 ? 打头 如 果 源 和 目标 寄存 嚣 相同， 忽略 第 一 条 指令 


所 以 发 送 器 是 这 样 来 解释 字符 串 “lw r%c，%I\n” 的 : 先生 成 “lw r”， 然 后 是 目标 寄存 器 的 
名 字 (通常 是 一 个 数字 串 )， 接 着 是 一 个 逗号 。 如 果 nts[1] 保存 了 表示 非 终 结 符 addr 的 整数 ， 那 
么 递归 生成 p->kids[1] 作为 一 个 addr。 最 后 ，emitasm 生成 一 个 换行 符 。 

许多 目标 机 器 采用 三 操作 数 指令 ， 这 种 指令 有 两 个 独立 的 源 操作 数 并 产生 一 个 独立 的 目的 操 
作 数 。 其 他 目标 机 器 通过 使 用 两 操作 数 指令 以 节省 存储 指令 的 空间 ， 这 种 两 操作 数 指令 将 目的 操 
作 数 定 为 第 一 个 源 操作 数 。 由 于 第 一 个 源 操 作 数 可 能 还 要 使 用 ， 所 以 lce 把 双 指 令 模 板 用 于 诸如 
ADDI 之 类 的 操作 码 。 第 一 条 指令 复制 第 一 个 源 操 作 数 到 目的 操作 数 ， 第 二 条 指令 把 第 二 个 源 操 
作 数 加 到 目的 操作 数 上 。 如 果 第 一 个 源 操作 数 不 再 有 用 ， 寄 存 器 分 配 程序 通常 安排 目的 操作 数 和 
第 一 个 源 操 作 数 共 享 相 同 的 寄存 器 ， 所 以 第 一 条 指令 复制 寄存 器 到 其 自身 是 多 余 的 。 生 成 器 最 后 
可 以 很 容易 地 删除 这 些 宛 余 指 令 。 每 个 规范 在 这 类 指令 的 开头 标记 一 个 “?”， 如 果 源 操作 数 寄存 
器 和 目的 操作 数 寄存 器 是 同一 个 ，emit 将 跳 过 这 类 指令 。 


(omit leading register copy? 306 )= 305 
if (*fmt == '?') { 
fmt++; 
if (p->syms[RX] == p->kids[0]->syms[RX]) 


while (*fmt++ != '\n') 


} 
接口 程序 emit 遍历 了 指令 列表 ， 并 且 每 次 生成 一 条 指令 : 
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(gen.c functions) += 365 307 
void emit(p) Node p; { 
for C; p; p = p->x.next) { 
if (p->x.equatable && requate(p) |] moveself(p)) 
else 
(*emitter)(p, p->x.inst); 
p->x.emitted = 1; 
} 
} 


大 多 数 接口 例 程 对 每 个 目标 机 器 都 有 一 个 对 应 的 实现 ， 但 是 emit 的 实现 只 有 一 个 ，emit 与 
目标 相关 的 部 分 已 被 分 离 出 来 ， 成 为 汇编 代码 模式 。 

上 面 的 间接 调用 使 得 lce 可 以 调用 另 一 个 生成 器 。 例 如 ， 利 用 这 一 特性 ， 可 以 把 本 书 介绍 的 
生成 器 替换 成 一 个 直接 产生 二 进 制 目标 代码 的 生成 器 。emitter 被 初始 化 成 emitasm: 


(gen.c data) += 290 310 
unsigned (*emitter) ARGS((Node, int)) = emitasm; 


emit 实现 了 两 种 最 终 优 化 措施 。moveself 删除 了 那些 复制 寄存 器 到 自身 的 指令 : 


(gen.c functions) += 307 307 
static int moveself(p) Node p; { 
return p->x. copy 
&& p->syms[RX]->x.name == p->x.kids[0]->syms[RX]->x.name; 


相等 测试 利用 了 这 样 一 个 事实 ， 就 是 字符 串 功 能 模块 对 于 每 个 不 同 的 字符 串 只 保存 一 个 副本 。 
x.copy 由 代价 函数 move 来 设置 ， 该 函数 通过 选择 “寄存 器 一 寄存 器 ”移动 的 规则 调用 : 


(gen.c functions) += 367 307 
int move(p) Node p; { 
p->x.copy = 1; 
return 1; 


emit 的 其 他 优化 措施 消除 了 一 些 寄 存 器 — 寄存 器 复制 ， 比 如 通过 使 用 源 寄 存 器 来 代替 目的 寄 
存 器 。 如 果 指 令 p 把 寄存 器 sro 复制 到 临时 的 寄存 器 tmp， 作 为 公共 子 表 达 式 来 使 用 ， 那 么 寄存 
器 分 配 程序 将 设置 x.equatable 标记 。 如 果 设 置 了 x.equatable 标记 ， 生 成 天 就 调用 requate, requate 
从 p 开始 向 前 扫描 ; 


(gen.c functions) += 307 3 10 
static int requate(q) Node q; { 
Symbol src = q->x.kids[0]->syms [RX]; 
Symbol tmp = q->syms[RX]; 
Node p; 
int n = 0; 
for (p = q->x.next; p; = p->x.next) 
(requate 308 ) 
for (p = q->x.next; p; p = p->x.next) 
if (p->syms[RX] == tmp && readsreg(p)) { 
p->syms [RX] = src; 
if (--n <= 0) 
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break; 


} 


return 1; 


} 


第 一 个 for 循环 包含 了 几 个 返回 0 的 语句 ， 它 们 使 生成 器 继续 生成 指令 ， 除 非 moveself 介入 。 生 
成 器 只 在 requate 退出 第 一 个 循环 的 时 候 删 除 寄存 器 -寄存 器 复制 指令 ， 然 后 进入 第 二 个 循环 ， 
最 后 返回 值 为 1。 第 二 个 循环 将 所 有 从 tmp 读数 替换 成 从 sre 中 读数 ， 第 一 个 循环 已 经 将 这 些 读 
操作 的 数目 记录 在 n 中 。 

如 果 指 令 把 tmp 复制 到 src, HF tmp 的 值 改变 了 ， 所 以 moveself 会 将 其 删除 ， 循 环 将 继续 
检查 ， 看 是 否 可 能 还 有 其 他 的 改变 : 


(requate 308 )= 308 307 
if (p->x.copy && p->syms[RX] == src 
&& p->x.kids[0]->syms[RX] == tmp) 
p->syms[RX] = tmp; 


如 果 没 有 这 个 测试 ，return fO 将 从 返回 寄存 器 把 上 的 值 复制 到 一 个 临时 单元 ， 然 后 再 为 当前 函数 
把 该 值 复制 到 返回 寄存 器 。 

如 果 找 到 一 条 指令 是 以 src 为 目标 的 ， 且 该 指令 不 是 将 src 赋值 给 其 自身 ， 指 令 也 不 只 是 读 
取 src, AA requate 将 会 失效 ， 因 为 一 般 来 说 ，tmp 和 sre 此 后 的 值 是 不 相同 的 : 


(gen.c macros)= 322 
#define readsreg(p) \ 
(generic((p)->op)==INDIR && (p)->kids[0]->op==VREG+P) 
#define setsrc(d) ((d) && (d)->x.regnode && \ 
(d)->x.regnode->set == src->x.regnode->set && \ 
(d)->x. regnode->maské&src->x. regnode->mask) 


(requate 308 ) 十 三 308 307 
else if (setsrc(p->syms[RX]) && !moveself(p) && !readsreg(p)) 
return 0; 


例如 ， 当 ?在 寄存 器 rl 中 时 ，c=*p++ 产生 了 下 面 的 伪 指令 。 目 的 操作 数 是 最 右边 的 操作 数 。 


move rl ,r2 存储 p 值 
add r2,1,r1 递增 p 值 
loadb (r2),r3 WF 
storeb r3,c 存 字 符 


requate 将 add 指令 改 成 使 用 rl 而 不 是 t2， 但 是 不 能 对 后 面 的 指令 做 这 种 改变 ， 因 为 在 加 法 之 后 
rl 和 2 就 不 相等 了 。 
如 果 requate 遇 到 一 条 使 tmp 溢出 的 指令 ， 它 也 会 结束 : 


(requate 308 ) 十 三 308 309 307 
else if (generic(p->op) == ASGN && p->kids[0]->op == ADDRLP 
&& p->kids[0]->syms[0]->temporary 
&& p->kids[1]->syms[RX]->x.name == tmp->x.name) 

return 0; 


程序 没有 对 genspill 插入 的 节点 给 出 明确 的 标志 ， 但 是 通过 上 述 条 件 能 找到 它们 。 
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如 果 requate 遇 到 调用 指令 ， 它 也 将 停止 ， 除 非 该 调用 是 森林 的 结尾 ， 因 为 sre 可 能 是 调用 程 
序 存储 的 寄存 器 ， 它 调用 了 clobber。 
(requate 308 )+= 308 399 307 


else if (generic(p->op) == CALL && p->x.next) 
return 0; 


通常 ，src 是 个 被 调用 程序 存储 的 寄存 器 变量 ， 所 以 equate 可 能 在 终止 之 前 需要 确认 寄存 器 是 调 
用 程序 存储 的 ， 但 对 于 数 以 千 行 计 的 源 代 码 而 言 ， 这 种 检查 毫 无 意义 ， 因 此 程序 略 去 了 这 种 检查 。 
如 果 requate 遇 到 标号 ， 它 也 将 停止 ， 除 非 该 标号 是 森林 的 结尾 ， 因 为 src 此 后 可 能 会 有 不 同 
的 值 : 
(requate 308 ) 十 三 369 399 307 
else if (p->op == LABEL+V && p->x.next) 
return 0; 
如 果 上 述 测试 都 没有 成 功 ， 且 tmp 和 sre 有 同样 的 值 ， 那 么 倘若 这 个 节点 读 取 了 tmp， 该 指 
令 就 被 计数 ， 并 继续 循环 以 判断 后 面 对 tmp 的 使 用 能 否 被 sre 取代 : 
(requate 308 )+= 309 309 307 


else if (p->syms[RX] == tmp && readsreg(p)) rý 
n++; 


如 果 一 个 节点 写 入 tmp， 或 者 如 果 requate 处 理 完了 指令 ， 那 么 森林 关于 tmp 的 处 理 完 毕 ，requate 
退出 第 一 个 循环 : 

(requate 308) += 309 307 

else if (p->syms[RX] == tmp) 
break; 
现在 requate 的 第 二 个 循环 用 sre 的 读 操作 取代 了 tmp 的 所 有 读 操作 ， 然 后 requate 返回 1， 生成 
器 忽略 最 初 对 tmp 的 赋值 。 

到 目前 为 止 ， 大 多 数 复杂 的 寄存 器 - 寄存 器 复制 操作 ， 一 般 来 自 于 那些 在 使 用 初 值 的 情形 中 
的 后 增 指令 ， 如 c = *p++。 在 某 种 情形 下 ， 可 以 通过 重新 安排 指令 来 避免 这 些 代 码 ， 对 于 这 类 
模式 ，lcc 的 代码 以 一 个 复制 指令 开始 。 例 如 ， 一 个 比较 好 的 优化 程序 能 够 将 上 面 的 4 条 伪 指 令 
缩减 为 : 

loadb (rl),r3 BFA 

add rl,l,rl 递增 p 

storeb r3,c 存 字符 

现在 ,在 标准 loc 测试 平台 中 ， 寄 存 器 -寄存 器 传送 指令 大 概 占 到 MIPS 和 SPARC 所 有 指令 
的 5%。 在 MIPS 代码 中 ， 大 约 有 一 半 的 复制 是 从 寄存 器 变量 或 零 (这 种 寄存 器 - 寄存 器 复制 的 源 
寄存 器 由 硬件 置 零 ) 到 寄存 器 变量 、 参 数 或 返回 寄存 器 ， 这 样 的 传送 指令 是 不 容易 被 删除 的 。 剩 
下 的 一 些 (但 不 是 全 部 ) 可 能 被 删除 ， 这 样 ， 我 们 就 接近 简单 寄存 器 复制 优化 的 极限 了 。 


14.7 寄存 器 定位 


有 些 节 点 能 够 在 众多 寄存 器 中 任 选 一 个 进行 计算 ， 但 是 有 些 节 点 就 要 烦琐 一 些 。 例 如 ， 大 多 
数 计算 机 能 够 在 任何 通用 寄存 器 中 计算 整数 之 和 ， 但 是 大 多 数 函 数 调用 都 规定 返回 值 只 能 存储 在 
一 个 特定 的 寄存 器 中 。 
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如 果 节 点 需要 子 节点 在 一 个 固定 寄存 器 中 ， 那 么 寄存 器 定位 程序 就 会 尽力 将 该 子 节点 的 计算 
放 在 那个 寄存 器 中 。 如 果 不 能 做 到 ， 那 么 代码 生成 器 必须 在 树 中 的 父 节 点 与 子 节点 之 间 捅 人 一 个 
寄存 器 -寄存 器 复制 指令 。 例 如 ， 在 下 面 的 代码 中 : 


f(a, b) { return a + b; } 
返回 操作 是 烦琐 的 ,但 求 和 并 不 复杂 ， 所 以 代码 能 够 直接 在 返回 寄存 器 中 求 和 。 相 反 ， 
fO { register int i = gQ; } 


g 通 常 通过 某 个 寄存 器 返回 结果 ， 而 寄存 器 变量 i 会 分 配 在 另 一 个 寄存 器 中 ， 所 以 寄存 器 -寄存 
器 复制 指令 是 必 不 可 少 的 。 

下 一 章 将 介绍 变量 和 临时 变量 的 实际 的 寄存 器 分 配 ， 但 是 寄存 器 -寄存 器 复制 是 一 种 指令 。 
这 种 指令 只 有 在 表示 为 节点 时 ， 才 能 像 其 他 指令 一 样 得 到 处 理 。 为 此 ，prelabel 在 标记 树 前 先 对 
树 进行 一 次 遍历 : 

(gen.c functions)+= 907 3 11 


static void prelabel(p) Node p; { 
(prelabel 310) 


prelabel 对 那些 烦琐 的 节点 标 以 它们 需要 的 寄存 器 ， 对 其 余 的 节点 〈 至 少 是 那些 产生 结果 而 不 是 
起 副作用 的 节点 ) 标 以 表示 有 效 寄 存 器 组 的 wildcard 符号 。prelabel 还 在 那些 可 能 要 用 到 寄存 器 一 
寄 在 器 复制 的 地 方 插入 LOAD 节点 。 

preload 以 从 左 到 右 遍 历 子 树 的 方式 开始 : 


(prelabel 310)= 310 310 
if (p == NULL) 
return; 


prelabel(p->kids[0]); 
prelabel(p->kids[1]); 


然后 就 为 需要 在 寄存 器 中 存放 结果 的 节点 指明 寄存 器 类 别 : 


(prelabel 310)+= 310 3j1 310 
if (NeedsReg[opindex(p->op) ]) 
setreg(p, rmap[optype(p->op)]); 


NeedsReg 测试 把 具有 副作用 的 节点 与 那些 需要 寄存 器 存放 结果 的 节点 区 分 开 来 。NeedsReg 按照 
通用 操作 码 索引 ， 并 标记 产生 值 的 操作 码 : 


(gen.c data)+ 三 307 313 
static char NeedsReg[] = { 

/* unused */ 

/* CNST */ 

/* ARG ASGN */ 

/* INDIR */ 
i /* CVC CVD CVF CVI */ 
/* CVP CVS CVU NEG */ 
/* CALL */ 
/* LOAD */ 
/* RET */ 
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1, 1, 1, /* ADDRG ADDRF ADDRL */ 
Lh 1, 28s /* ADD SUB LSH MOD RSH */ 
1, 1, 1, 1, /* BAND BCOM BOR BXOR */ 
i, 1, /* DIV MUL */ 

0, 0, 0, 0, 0, O, /* EQ GE GT LE LT NE */ 
0, 0, /* JUMP LABEL +*/ 


J: 
Symbol rmap[16]; 


rmap 按照 类 型 后 级 索引 ,保存 了 表示 存放 该 类 型 值 的 寄存 器 组 的 wildcard。 例 如 ，rmap[ 了 中 存 
放 了 表示 通用 寄存 器 的 通配符 ，rmap[D] 中 存放 了 表示 双 精 度 浮 点 寄存 器 的 通配符 。 每 个 寄存 器 
组 都 与 目标 机 器 相关 ， 所 以 目标 机 器 的 progbeg 初始 化 rmap. setreg 在 节点 中 记录 了 来 自 rmap 的 
值 ， 以 支持 寄存 器 定位 和 分 配 : 


(gen.c functions) += afo 312 
void setreg(p, r) Node p; Symbol r; { 
p->syms[RX] = r; 


由 于 setreg 对 于 前 面 的 断言 和 断 点 作用 很 大 ， 所 以 将 其 设计 为 一 个 函数 。 

prelabel 调用 setreg， 为 所 有 带 有 相同 类 型 后 级 的 操作 码 指派 相同 的 通配符 。 接 下 来 ,prelabel 
校正 了 烦琐 节点 。 

寄存 器 变量 能 够 影响 目标 寄存 器 定位 ， 所 以 prelabel 下 一 步 要 找 出 读 写 寄存 器 变量 的 节点 。 
前 端的 符号 可 以 区 分 寄存 器 变量 与 非 寄存 器 变量 (判断 符号 的 sclass 域 是 否 是 REGISTER), 但 
是 前 端 节点 并 不 能 做 到 这 一 点 。 后 端 必须 生成 不 同 的 代码 来 访问 这 两 种 存储 类 别 ， 所 以 prelabel 
改变 了 一 些 访问 寄存 器 变量 的 操作 码 。 如 果 引 用 的 符号 是 个 寄存 器 变量 ， 就 用 VREG 来 代替 
ADDRL 和 ADDRF， 并 且 利 用 分 配给 该 变量 的 唯一 寄存 器 代替 在 VREG 上 面 的 INDIR 中 的 通 
配 符 : 


(prelabel 310)+= Ro 312 310 
switch (generic(p->op)) { 
. case ADDRF: case ADDRL: 
if (p->syms[0]->sclass == REGISTER) 
p->op = VREG+P; 
break; 
case INDIR: 
if (p->kids[0]->op == VREG+P) 
setreg(p, p->kids(0]->syms[(0]); 
break; 
case ASGN: 
(prelabel case for ASGN 311) 
break; 


} 


prelabel 将 赋值 指令 的 右 子 节点 分 配给 寄存 器 变量 ， 尽 可 能 计算 其 值 并 直接 存 人 该 寄存 器 变量 : 


(prelabel case for ASGN 311)= 311 
if (p->kids[0]->op == VREG+P) { 
rtarget(p, 1, p->kids[0]->syms[0]); 

} 


最 后 ，prelabel 调用 一 个 与 目标 机 器 相关 的 程序 ， 该 程序 为 烦琐 的 操作 码 调整 寄存 器 类 别 : 


312 #1lAF= 


(prelabe1310 )+= 1310 
CIR->x. target) (p); 


rtarget(p,n,r) 保证 了 直接 计算 p->kids[n] 的 结果 并 保存 到 寄存 器 rf 中: 


(gen.c functions)+= 3 343 
void rtarget(p, n, r) Node p; int n; Symbol r; { 
Node q = p->kids[n]; 


if (r != q->syms[RX] && !q->syms[RX]->x.wildcard) { 
q = newnode(LOAD + optype(q->op), 
q, NULL, q->syms[0]); 
if (r->u.t.cse, == p->kids(n]) 
r->u.t.cse = q; 
p->kids[n] = p->x.kids[n] = q; 
q->x.kids[0] = q->kids[0]; 


setreg(q, r); 


如 果子 节点 已 被 定位 到 另 一 个 寄存 器 变量 或 者 返回 寄存 器 之 类 的 特殊 寄存 器 ， 那 么 rtarget 在 
树 中 父 节 点 和 子 节 点 之 间 插 入 一 个 LOAD 节点 ， 并 定位 LOAD 节点 (而 不 是 原来 的 子 节点 )。 代 
码 生 成 器 为 LOAD 生成 寄存 器 -寄存 器 复制 代码 。 如 果子 节点 未 被 定位 ， 那 么 q->syms[RX] 含 
有 一 个 通配符 。 因 为 r 必须 是 通配符 对 应 的 寄存 咒 组 中 的 一 员 ， 最 后 调用 setreg 来 保证 这 一 点 。 
如 果 不 是 ，lcc 将 产生 代码 ， 把 一 个 寄存 器 组 中 的 寄存 器 复制 到 另 一 个 寄存 器 组 中 的 寄存 器 ， 倘 
若 没 有 显 式 转换 节点 ， 这 种 情况 便 不 会 发 生 。 

14-6 显示 了 在 rtarget 之 前 和 之 后 的 3 棵 示例 树 。 它 们 均 假定 r0 是 返回 寄存 器 ，I2 是 寄 
存 器 变量 。 第 一 棵 树 有 一 个 无 约束 的 子 节点 ， 所 以 rtarget 没有 插入 LOADI ; 第 二 棵 树 有 一 个 
INDIRI, INDIRI Æ RETIZ F, ÆJ r2, 但 RETI 需 要 的 是 0， 所 以 rtarget 插 入 了 一 个 LOADI; 
第 三 棵 树 有 一 个 CALLI，CALLI 在 ASGNI 之 下 , 产生 r0, 但 ANGNI 需要 rt2， 所 以 rtarget 也 插 
AT—* LOADI. 

prelabel 和 rtarget 通过 寄存 器 定位 程序 取出 和 存 人 寄存 器 变量 ， 所 以 lcc 针对 这 类 操作 的 模 
板 在 任何 机 器 上 都 不 为 这 两 种 操作 生成 代码 。 所 有 的 机 器 都 使 用 如 下 规则 : 


(shared rules 312)= 314 335 363 389 
reg: INDIRCCVREGP) "# read register\n" 
reg: INDIRD(VREGP) “# read register\n" 
reg: INDIRFC(VREGP) “# read register\n” 
reg: INDIRICVREGP) "# read register\n" 
reg: INDIRP(VREGP) “# read register\n" 
reg: INDIRSCVREGP) "# read register\n" 


stmt: ASGNC(VREGP,reg) "“# write register\n" 
stmt: ASGNDCVREGP,reg) "# write register\n" 
stmt: ASGNF(VREGP,reg) "“# write register\n” 
stmt: ASGNICVREGP,reg) "# write register\n" 
stmt: ASGNP(VREGP,reg) "# write register\n” 
stmt: ASGNSCVREGP,reg) "# write register\n” 


注释 模板 不 生成 任何 代码 ,但 是 它 出 现在 调试 器 的 输出 中 ， 所 以 描述 性 注释 还 是 有 作用 的 。 


Dimi 2 A pene 


RETI => RETI 

ADDI syms[RX]=? ADDI syms[RX]=r0 

RETI = RETI 
INDIRI syms[RX]=r2 LOADI syms[RX]=r0 
VREGP INDIRI syms[RX]=r2 

r2 
VREGP 
r2 
ASGNI I 
=> ASGN 
VREGP CALLI syms[RX]=r0 VREGP LOADI syms[RX]=r2 
r2 r2 


CALLI syms[RX]=r0 


图 14-6 rtarget 示例 


14.8 指令 选择 的 协调 
13.1 STAT rewrite 和 gen 怎样 协调 处 理 本 章 所 描述 的 某 些 过 程 ， 下 面 做 进一步 的 详细 介 
绍 。rewrite 完成 了 单 棵 树 的 寄存 器 定位 和 指令 选择 ; 


(gen.c functions) += 312 313 
static void rewrite(p) Node p; { 
prelabel(p); 


(*IR->x._label) (p); 
reduce(p, 1); 


} 
接口 函数 gen 从 前 端 接收 森林 ， 然 后 对 这 些 树 进行 多 次 遍历 。 
(gen.c data) += 310 39 
Node head; 
(gen.c functions) += 313 3 115 
Node gen(forest) Node forest; { 
int i; 


struct node sentinel; 
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Node dummy, p; 


head = forest; 
for (p = forest; p; p = p->link) { 
(select instructions for p 314) 


for (p = forest; p; p = p->link) 
prune(p, &dummy) ; 

(linearize forest 323) 

(allocate registers 323) 

return forest; 


} 
第 一 次 遍历 调用 rewrite 来 选择 指令 ， 第 二 次 遍历 从 树 中 删除 子 指令 。 第 一 次 遍历 为 参数 和 过 程 
调用 完成 了 与 目标 机 器 相关 的 处 理 。 例 如 ， 按 调用 约定 使 用 寄存 器 传递 参数 
(select instructions forp 314)= 314 
if (generic(p->op) == CALL) 
docall(p); 
else if (  generic(p->op) == ASGN 
&& generic(p->kids[1]->op) == CALL) 
docall(p->kids[1]); 
else if (generic(p->op) == ARG) 
(*IR->x.doarg) (p); 
rewrite(p); 
p->x.listed = 1; 
只 有 doarg 是 与 目标 机 器 相关 的 。 在 任何 一 棵 树 中 ， 只 要 是 先 计 算 子 节点 再 计算 父 节 点 ， 代 码 生 
成 器 就 能 自由 地 以 最 佳 顺 序 计算 节点 。 有 些 函 数 调用 可 能 有 副作用 ， 所 以 前 端 将 调整 所 有 对 该 森 
林 的 调用 ， 来 修改 产生 副作用 的 调用 的 顺序 。 如 果 调 用 没有 返回 值 或 者 忽略 了 返回 值 ， 那 么 调用 
本 身 就 出 现在 森林 中 ; 第 一 个 让 语句 用 来 识别 这 种 模式 。 否 则 ， 调 用 指令 将 出 现在 对 一 个 临时 变 
量 赋值 的 指令 下 面 ， 该 临时 变量 用 于 以 后 需要 返回 值 的 地 方 ; 第 二 个 让 语句 用 来 识别 这 种 模式 。 
第 一 次 遍历 还 对 列 出 的 节点 进行 标记 。 第 15 章 将 详细 介绍 这 一 点 以 及 gen 遍历 的 其 他 处 理 。 


14.9 共享 规则 


本 书 中 有 些 规则 对 所 有 目标 机 器 都 是 相同 的 。 这 些 规则 被 分 离 出 来 放 在 一 个 与 目标 机 器 无 关 
的 片段 中 ， 既 可 以 节省 室 间 ， 又 可 以 保证 lcc 发 生变 化 时 保持 一 致 。 其 中 一 些 公共 规则 与 整数 常 
量 匹 配 : 

(shared rules 312)+= 312 345 335 363 389 

con: CNSTC "“%a" 
con: CNSTI "%a" 
con: CNSTP "Xa" 


con: CNSTS "%a™ 
con: CNSTU "%a" 


本 书 中 ， 所 有 lburg 规范 共享 这 样 的 约定 ， 该 约定 包括 : 非 终结 符 reg 匹配 所 有 在 寄存 器 中 
产生 结果 的 计算 ; 非 终结 符 stmt 匹配 所 有 的 根 ， 这 是 为 某 些 副作用 而 执行 的 ， 主 要 是 改变 存储 天 
或 程序 计数 器 。 
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(shared rules 312)+= 374 315 335 363 389 
stmt: reg "" 
当 产 生 寄 存 器 的 节点 作为 根 出 现 的 时 候 ， 必 须 使 用 这 个 规则 。 例 如 ， 如 果 CALLI 的 调用 者 忽略 
了 它 的 返回 值 ，CALLI 就 需要 该 规则 匹配 。 
下 面 的 规则 说 明 当前 所 有 的 lec 目标 机 器 都 不 需要 通过 计算 把 一 个 整 型 或 指针 类 型 转换 为 具 
有 同样 大 小 的 其 他 类 型 : 


(shared rules 312)+= 315 335 363 389 
reg: CVIU(reg) “%0” notarget(a) 
reg: CVPUCreg) "%0" notarget(a) 
reg: CVUI(reg) "%0" notarget(a) 
reg: CVUP(reg) “%0” notarget(a) 
代价 函数 notarget 在 大 多 数 情况 下 产生 一 个 零 代 价值 的 匹配 ， 但 是 如 果 寄 存 器 定位 程序 已 经 将 节 
点 安排 到 了 某 个 固定 寄存 器 ， 也 就 是 说 ， 目 的 寄存 器 不 再 是 一 个 表示 寄存 器 组 的 通配符 ， 那 么 就 
可 能 需要 寄存 器 - 寄存 器 复制 指令 ， 此 时 notarget 将 返回 一 个 代价 值 以 中 止 这 个 规则 ; 
(gen.c functions) += 373 320 


int notarget(p) Node p; { 
return p->syms[RX]->x.wildcard ? 0 : LBURG_MAX; 


每 个 规范 都 包含 并 行规 则 ， 并 行规 则 生成 单位 代价 值 的 寄存 器 复制 指令 ， 这 种 规则 在 节点 有 
固定 目标 寄存 器 的 时 候 使 用 。 


14.10 ”编写 规范 

第 16 章 至 第 18 章 给 出 了 一 些 完整 的 lburg 输入 。 尽 管 编写 自己 的 lburg 规范 最 容易 的 方法 可 
能 是 以 本 书 解释 的 某 个 规范 为 基础 开始 编写 , 但 是 了 解 一 些 通 用 的 准则 还 是 有 用 的 。16.2 节 就 说 
明了 这 一 点 。 

一 般 来 说 ， 每 条 指令 对 应 一 条 规则 ， 每 个 寻 址 方式 也 对 应 一 条 规则 。 在 规范 中 ， 模 板 给 出 了 
汇编 程序 语法 ， 模 式 使 用 中 间 语 言 操作 符 树 描述 指令 的 作用 。 

通常 遇 到 等 价 操作 符 时 需要 复制 规则 。 例 如 ， 针 对 ADDI 的 规则 一 般 与 针对 ADDU 和 
ADDP 的 规则 类 似 。 

为 每 个 树 操作 符 编写 额外 规则 时 ， 可 以 将 树 操作 符 作为 通用 操作 符 的 特例 来 处 理 。 例 如 ， 
ADDRLP 可 以 通过 给 帧 指针 添加 常量 来 实现 ， 所 以 在 写 一 个 匹配 常量 与 寄存 器 求 和 的 规则 时 ， 
稍 做 修改 就 可 以 编写 与 ADDRLP 匹配 的 规则 。 

要 为 通用 操作 符 的 每 种 退化 情形 编写 额外 的 规则 。 例 如 ， 如 果 一 些 寻 址 方式 与 常量 和 寄存 器 
之 和 匹配 ， 那 么 当 常 量 为 0 的 时 候 ， 它 也 能 做 一 些 简单 的 间接 寻 址 。 

要 为 中 间 语 言 中 不 能 由 单个 指令 实现 的 操作 符 编 写 额外 的 规则 生成 多 条 指令 。 例 如 ， 许 多 机 
器 没有 直接 实现 CVCI 的 指令 ， 所 以 它们 的 规范 中 就 实现 了 一 个 规则 ， 该 规则 的 模板 有 两 条 移 位 
指令 。 这 些 指 令 通过 对 字 节 先进 行 逻 辑 或 者 算术 左 移 再 算术 右 移 的 方式 来 传播 符号 位 。 

应 当 用 一 个 非 终 结 符 来 推导 所 有 能 产生 值 的 树 。 当 对 应 于 规则 模式 的 指令 需要 读 取 寄存 器 时 
使 用 该 非 终 结 符 。 本 书 就 是 按照 这 种 方法 使 用 非 终 结 符 reg 的 。 这 种 方法 的 一 种 变形 能 够 发 现 更 
多 的 错误 。 即 一 个 非 终结 符 用 于 通用 寄存 器 ， 另 一 个 非 终 结 符 用 于 浮 点 寄存 器 (如 freg)。 例 如 ， 
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只 使 用 一 个 寄存 器 非 终 结 符 的 规则 会 接受 类 似 NEGF (INDIRI (...)) 在 语法 上 有 错误 的 树 。 当 然 ， 
这 种 特殊 的 错误 是 很 少见 的 。 

类 似 地 ， 可 用 一 个 非 终 结 符 来 推导 所 有 只 起 副作用 的 树 ， 例 如 ASGN 和 ARG。 本 书 用 stmt 
表示 副作用 树 。 我 们 可 以 编写 一 个 lburg 规范 ， 合 并 reg 和 stmt， 但 是 寄存 器 分 配 程序 假定 起 副 
作用 的 树 都 是 根 ， 而 具有 值 的 树 都 是 内 部 节点 和 叶 节 点 。 如 果 违 反 了 这 种 假定 ，lburg 就 会 生成 
错误 的 代码 ， 这 是 编译 器 编写 人 员 最 不 愿 见 到 的 。 如 果 违 反 这 些 假定 ， 只 能 将 reg 从 stmt 中 分 离 
出 来 以 保证 代码 生成 器 正确 实现 目标 。 

确保 为 中 间 语 言 中 的 每 个 操作 符 提供 至 少 一 种 生成 代码 的 方法 。 其 中 较 容易 的 一 种 方法 就 是 
为 每 个 操作 符 写 一 个 寄存 器 -寄存 器 规则 : 

reg: LEAF 

reg: UNARY(Creg) 

reg: OPERATOR(reg,reg) 
这 样 的 规则 确保 了 leo 对 每 个 节点 至 少 有 一 种 匹配 方法 ， 为 每 个 节点 生成 一 条 汇编 指令 代码 。 

编写 lburg 规范 时 需要 查阅 目标 机 器 的 体系 结构 手册 ， 弄 清 支 持 各 种 中 间 代 码 操作 的 指令 或 
寻 址 方式 ， 编 写 各 种 规则 ， 这 些 规则 的 模式 能 够 匹配 指令 的 计算 功能 。 图 14-2 中 的 规则 3 和 规 
则 7 就 是 这 样 的 例子 。 如 果 看 一 下 完整 的 “寄存 器 一 寄存 器 ”规则 组 ， 将 会 发 现 这 些 较 大 的 规则 
不 是 必要 的 ,但 一 般 说 来 ， 它 们 生成 的 代码 更 短 、 更 快 。 跳 转 指 令 和 寻 址 方式 是 非常 特殊 的 ,很 
难 想象 它们 会 用 于 C 程序 (或 C 语言 编译 器 )。 

使 用 非 终 结 符 来 对 规范 进行 组 织 。 如 果 你 发 现 某 个 子 模式 经 常 被 使 用 ， 那 么 为 其 设计 一 个 规 
则 ， 并 用 一 个 非 终结 符 作 为 规则 名 字 。 
深入 阅读 

lec 的 指令 选择 程序 基于 Aho and Johnson (1976) 提出 的 算法 。 接 口 是 根 据 burg (Fraser, 
Henry and Proebsting，1992 ) 改编 而 成 的 ， 其 实现 也 是 根据 相应 的 程序 iburg (Frasef, Hanson and 
Proebsting, 1992) 改编 的 。iburg 在 编译 时 采用 了 动态 规划 方法 。 处 理 规范 时 ，burg 使 用 BURS 
理论 (Pelegri-Llopart and Graham, 1988 ; Proebsting, 1992) 来 完成 动态 规划 ， 所 以 速度 比较 快 ， 
但 在 某 种 程度 上 少 了 一 些 灵 活性 。 

可 变 目 标的 编译 器 gce (Stallman, 1992) 给 出 指令 选择 的 男 一 种 方法 。 它 使 用 了 一 个 本 地 
代码 生成 融和 一 个 彻底 可 变 目 标的 据 孔 优化 程序 ， 该 程序 由 目标 机 器 描述 来 驱动 。Davidson 和 
Fraser ( 1984 ) 描述 了 这 种 方法 的 基础 。 


练习 

14.1 ”如 果 把 代价 的 类 型 从 short 改 为 int， 将 会 带 来 哪些 问题 ? 

14.2 ”严格 来 说 ，_kids 并 不 是 必需 的 。 描 述 一 下 如 果 没 有 它 将 怎样 实现 化 简 程 序 。 

14.3 Iburg 使 用 从 1 开始 的 整数 编码 表示 每 个 非 终 结 符 ，1 表示 开始 非 终 结 符 。 以 0 结尾 的 向 量 _ntname 按 
照 这 些 数 进行 索引 ， 并 存放 相应 非 终结 符 的 名 字 : 


(BURM signature 295) += 305 
static char *_ntname[]; 
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14.4 


14.5 


14.6 
14.7 


利用 它 编写 过 程 void dumpmatches (Node p)， 该 过 程 显 示 节 点 p 和 所 有 与 它 匹配 的 规则 ， 典 型 的 输出 
可 能 是 : 
dumpmatches (0x1001e790)=ADDRLP (i): 
addr: ADDRLP / %a($sp) 
rc: reg / $%1 
reg: addr / la $%c,%1 
dumpmatches 不 是 化 简 程序 。 
树 分 析 程 序 在 处 理 无 环 有 向 图 (dag) 时 会 出 错 。 那 么 标记 程序 遍历 dag 时 会 出 错 吗 ”为 什么 ?化 简 程 
序 也 会 出 错 吗 ? 为 什么 ? 
在 任意 的 机 器 上 ， 用 -d 或 -Wf，-d 选项 编译 代码 : 


fCi) { return (i-22)>>22; } 

dumpcover 中 的 程序 行 可 以 识别 自身 。 哪 些 行 与 reuse 的 额外 匹配 对 应 ”哪些 行 与 随后 由 额外 匹配 启 
动 的 匹配 对 应 ? 

在 你 的 机 器 上 编译 lcc 时 ，moveself 优化 节省 了 多 少 条 指令 ? 

优化 的 一 个 标准 是 对 编译 器 本 身 进行 编译 时 是 否 有 效 。 例 如 ，requate 优化 需要 花费 时 间 ， 你 能 计算 出 
在 你 的 机 器 上 需要 多 少时 间 吗 ?如 果 在 lcc 编译 自身 时 采用 这 种 优化 ， 就 能 生成 一 个 更 快速 的 编译 右 ， 
这 样 可 以 节省 时 间 。 考 察 这 种 改进 在 你 的 机 器 上 的 效果 。 是 否 值 得 进行 requate 优化 呢 ? 
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寄存 器 分 配 包 括 两 个 部 分 : 一 是 分 配 ， 决 定 哪些 值 占 用 寄存 器 ; 二 是 指派 ， 为 每 个 值 指派 某 
个 特定 寄存 器 。 第 14 章 的 指令 选择 确定 某 个 子 表达 式 需 要 占用 寄存 器 ， 因 而 隐 含 地 分 配 了 临时 
变量 或 中 间 值 。 本 章 主要 描述 寄存 器 变量 的 分 配 以 及 所 有 对 寄存 器 的 指派 。 

与 所 有 的 寄存 器 分 配器 一 样 ，lcc 的 寄存 器 分 配器 也 包含 多 个 任务 : 它 必须 跟踪 哪些 寄存 器 
空闲 、 哪 些 寄存 器 正 忙 ; 必须 在 变量 或 中 间 值 生存 期 开始 时 就 为 其 分 配 一 个 寄存 器 ， 而 且 在 其 生 
存 期 结束 时 释放 该 寄存 器 以 备 它 用 ; 最 后 ， 当 寄存 器 分 配器 用 完 所 有 寄存 器 时 ， 必 须 生 成 代码 将 
其 中 某 些 寄存 器 的 值 保存 到 存储 器 中 〈 称 为 寄存 器 的 溢出 )， 使 这 些 寄存 器 可 以 分 配给 其 他 变量 或 
中 间 值 ， 以 后 需要 此 值 时 再 重新 读 取 到 寄存 器 中 。 

lec 提供 寄存 器 变量 ， 即 使 没有 明确 声明 ， 也 可 以 为 某 些 变量 指派 寄存 器 ， 但 这 是 全 局 寄存 
器 分 配 的 一 个 扩展 。lcc 没有 过 程 间 的 寄存 器 分 配 ， 临 时 变量 的 分 配 只 局 限 在 森林 内 。 

现在 有 许多 更 复杂 的 寄存 器 分 配器 ， 但 是 lce 的 分 配器 产生 的 代码 令 人 满意 ， 与 现在 广泛 使 
用 的 其 他 编译 器 产生 的 代码 相 比 ， 也 具有 竞争 力 。lce 的 溢出 器 尤其 简单 。 在 典型 的 编译 中 溢出 
是 非常 少 的 ， 因 此 我 们 把 更 多 的 精力 投入 其 他 方面 可 能 更 有 效 。 功 能 强大 的 寄存 器 分 配器 能 够 在 
寄存 器 中 更 长 时 间 地 保存 更 多 的 值 ， 这 样 将 会 增加 对 寄存 器 的 需求 ， 因 而 也 会 增加 溢出 的 数量 。 
lec 的 寄存 器 分 配器 非常 简单 ， 所 以 它 的 溢出 器 也 是 很 简单 的 。 

设计 lee 的 寄存 器 分 配器 时 首先 要 考虑 的 问题 是 ， 要 有 足够 的 灵活 性 来 适应 现 有 的 各 种 寄存 
器 使 用 约定 ， 以 便 le 的 代码 能 与 公共 的 已 有 的 ANSI C 库 一 起 工作 。 也 就 是 说 ， 我 们 要 做 到 不 
必 编 写 、 维 护 或 编译 loo 特有 的 库 。 

设计 上 第 二 个 要 考虑 的 问题 是 总 体 上 的 简单 化 ， 特 别 是 使 得 与 目标 机 器 相关 的 代码 最 小 化 。 
这 两 个 目标 是 互相 冲突 的 。 例 如 ，lcc 的 溢出 器 独立 于 目标 机 器 ， 因 此 必须 间接 构造 用 于 溢出 、 
重 取 值 的 指令 。 也 就 是 说 ， 要 创建 一 个 中 间 代 码 树 并 通过 代码 生成 器 来 遍历 它 。 这 将 是 比较 麻烦 
的 ， 因 为 我 们 正 处 在 代码 生成 过 程 中 ， 且 寄存 器 已 经 用 完 。 与 目标 机 器 相关 的 溢出 器 更 简单 ， 因 
为 它 可 以 简单 地 产生 目标 指令 完成 溢出 和 重 取 寄 存 器 ， 但 是 我 们 不 得 不 为 每 个 目标 机 器 编写 并 调 
试 新 的 溢出 器 。 即 便 使 用 lce 这 样 简单 的 溢出 器 ， 洲 出 也 很 少 发 生 ， 这 意味 着 好 的 用 于 测试 溢出 
器 的 例子 是 很 复杂 的 ， 也 很 难 找 到 ， 因 此 溢出 器 很 难 调试 。 尽 管 与 目标 机 虽 相 关 的 溢出 响 比 lec 
的 溢出 器 更 简单 ， 但 是 从 长 远 的 角度 来 看 ， 这 种 方法 的 益处 不 大 。 


15.1 ”组织 结构 


K 15-1 显示 了 寄存 器 分 配 调用 过 程 中 最 重要 的 部 分 ， 以 说 明 寄存 器 分 配器 的 整体 组 织 结构 。 表 
中 的 缩 进 说 明了 调用 和 被 调用 的 关系 。 该 表 的 抽象 层次 较 高 ， 它 指导 我 们 如 何 深入 更 低 的 层次 。 
表 15-1 后 端 简 化 的 调用 树 


例 程 名 目的 
linearize 为 输出 一 棵 指令 树 排序 
ralloc 为 一 条 指令 释放 和 分 配 寄 存 器 


putreg 释放 一 个 忙 寄存 器 


FRED HE 319 


( 续 ) 
例 程 名 目的 
getreg 发 现 和 分 配 一 个 寄存 器 
askreg 发 现 和 分 配 一 个 空闲 寄存 器 
askfixedreg 尝试 分 配 一 个 指定 寄存 器 
spillee 标记 一 个 寄存 器 溢出 
spill 溢出 一 个 或 多 个 寄存 器 
spillr 溢出 一 个 寄存 器 
genspill 产生 代码 溢出 一 个 寄存 器 
genreload 产生 代码 重 载 一 个 被 溢出 的 寄存 器 的 值 
reprune “4 genreload 更 新 x.kids 后 ， 更 新 kids 


在 后 端 选择 指令 并 将 子 指令 从 树 ( 树 是 通过 x.kids 数组 链接 而 成 的 ) 中 分 离 出 来 后 ，linearize 
采用 前 序 方法 遍历 分 离 后 的 树 ， 并 按照 最 后 执行 的 顺序 链接 指令 。gen 遍历 此 表 ， 将 每 条 指令 
传递 给 ralloc 函数 ，ralloc 一 般 首先 调用 putreg 来 释放 不 再 被 其 子 节点 使 用 的 寄存 器 ， 然 后 调用 
getreg 函数 为 自身 分 配 一 个 寄存 器 。 对 于 临时 变量 ，ralloc 在 首次 赋值 的 时 候 为 它 分 配 一 个 寄存 
器 ， 在 最 后 一 次 使 用 的 时 候 释 放 该 寄存 器 。 

如 果 getreg 发 现 没 有 适合 指令 的 空闲 寄存 器 ， 那 么 getreg 调用 spillee 函数 以 识别 将 来 最 远 使 
用 的 寄存 器 ， 然 后 调用 spill 函数 生成 代码 把 这 个 寄存 器 的 值 溢出 到 存储 器 ， 以 后 需要 时 再 重 取 该 
值 。 genspill 函数 引发 溢出 ,genreload 函数 用 表示 从 存储 器 中 取 值 的 节点 来 替换 所 有 还 未 被 处 理 的 、 
对 该 溢出 寄存 器 的 使 用 。genreload 调用 reprune 函数 重建 kids 与 x.kids 之 间 的 关系 ， 而 这 种 关系 
在 溢出 改变 森林 之 前 是 由 prune RAGE Ho 

对 这 些 例 程 而 言 , ralloc 不 是 唯一 的 入 口 点 。clobbef 可 以 直接 调用 spill 来 游 出 和 重 取 寄存 器 ， 
就 像 调用 程序 和 被 调用 程序 之 间 保 存 寄存 器 一 样 。 并 且 ， 每 个 目标 机 器 的 接口 程序 local 都 能 通 
过 调用 askregvar 来 调用 askreg，askreg 为 寄存 器 变量 分 配 寄存 器 。 


15.2 寄存 器 状态 跟踪 


掩 码 记录 了 例 程 编译 过 程 中 哪些 寄存 器 空闲， 哪些 已 被 使 用 。freemask 跟踪 哪些 寄存 器 是 空 
闲 的 ， 告 诉 寄 存 器 分 配器 哪个 寄存 器 可 以 被 分 配 ; usedmask 跟踪 所 有 被 当前 例 程 使 用 的 寄存 器 ， 
告诉 function 函数 哪些 寄存 器 在 过 程 开始 时 必须 保存 ， 哪 些 在 过 程 结 束 时 必须 恢复 。 这 两 个 掩 码 
都 用 向 量 表示 ， 向 量 中 的 每 个 元 素 对 应 一 个 寄存 器 组 。 

(gen.c data)+= 33 319 

unsigned freemask[2]; 

unsigned usedmask[2); 
每 个 目标 机 器 的 function 接口 过 程 将 这 些 掩 码 初始 化 成 没有 寄存 器 被 使 用 ， 即 所 有 的 寄存 器 都 是 
空闲 的 : 

(clear register state3i9)= 350 379 407 

usedmask[0] = usedmask[1] = 0; 

freemask[0] = freemask[{1] = ~(unsigned)0; 
每 个 progbeg 函数 将 设置 相似 的 两 个 掩 码 tmask 和 vmask., tmask 表示 用 于 临时 变量 的 寄存 器 ， 
vmask 表示 分 配给 寄存 器 变量 的 寄存 器 。 

(gen.c data)+= 319 


unsigned tmask[2]; 
unsigned vmask[2]; 
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不 可 分 配 的 寄存 器 既 不 属于 tmask 也 不 属于 vmask， 例 如 栈 指针 。 

freemask 和 usedmask 的 值 由 低层 的 例 程 putreg、getreg、askreg 和 askregvar 维护 ， 这 些 程序 
分 配 并 释放 某 个 寄存 器 。putreg 释放 符号 r 表示 的 寄存 器 。 只 有 freemask 可 以 区 别 空闲 与 被 使 用 
的 寄存 器 ， 所 以 除 修改 freemask 外 ，putreg 不 需要 改变 别 的 什么 。 


(gen.c functions) += 315 320 
static void putreg(r) Symbol r; { 
freemask[r->x.regnode->set] |= r->x.regnode->mask; 


如 果 有 可 能 ，askfixedreg 分 配 固定 寄存 器 rzr， 如 果 该 寄存 器 忙 ，askfixedreg 返回 一 个 空 指针 ， 否 
则 该 尊 数 调整 寄存 器 状态 记录 并 返回 ro 


(gen.c functions) += 320 320 
static Symbol askfixedreg(s) Symbol s; { 
Regnode r = s->x.regnode; 
int n = r->set; 


if (r->mask&~freemask[n]) 
return NULL; 

else { 
freemask[n] &= ~r->mask; 
usedmask[n] |= r->mask; 
return s; 

} 

J 


askreg 的 参数 可 以 是 一 个 表示 固定 寄存 器 的 符号 或 寄存 器 组 的 通配符 。askreg 的 第 二 个 参数 
是 对 通配符 进行 限制 的 掩 码 。 如 果 寄 存 器 是 固定 的 ，askreg 只 需要 调用 askfixedreg; 否则 ，askreg 
寻找 一 个 符合 掩 码 并 由 通配符 表示 的 寄存 器 组 的 空闲 寄存 器 : 


(gen.c functions) += 320 321 
static Symbol askreg(rs, rmask) 
Symbol rs; unsigned rmask[]; { 
int $s 


if (rs->x.wildcard == NULL) 
return askfixedreg(rs); 
for Ci = 31; i >= 0; i--) { 
Symbol r = rs->x.wildcard[i]; 
if (r != NULL 
&& !(r->x.regnode->mask&~rmask[r->x, regnode->set]) 
&& askfixedreg(r)) 
return r; 


return NULL; 
} 
{88 FA 25 FE REA SY FFA PF a AY i 1 EE EPR, EPR BI a a8 a EOL ETE S 
掩 码 的 位 数 。 到 目前 为 止 ， 该 值 在 每 个 目标 机 器 上 都 已 经 达到 32， 所 以 将 askregvar 循环 次 数 初 
始 化 为 32 次 较为 合理 。 但 是 如 果 定 义 更 小 的 寄存 带 组 ，lce 最 新 的 代码 生成 器 (在 X86 E) 的 编 
译 速 度 将 会 更 高 。 当 然 有 些 机 克 拥 有 更 大 的 寄存 怖 组 ， 例 如 现在 已 经 有 了 具有 32 个 64 位 整 型 寄 
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存 器 的 机 器 ， 但 这 种 64 位 的 机 器 不 符合 我 们 当初 设计 本 方法 的 初衷 。 我 们 可 以 用 一 个 适应 大 小 
可 变 的 集合 的 结构 来 表示 寄存 器 组 ， 改 进 现 有 的 方法 。 

getreg 函数 请 求 分 配 一 个 寄存 器 。 若 askreg 无 法 找到 合适 的 寄存 器 ，getreg 调用 spillee 选 出 
一 个 寄存 器 溢出 ， 然 后 调用 spill 修改 森林 ， 加 入 指令 ， 把 该 寄存 器 的 值 存 储 到 存储 器 并 在 需要 的 
时 候 重 取出 。 这 样 第 二 次 调用 askreg 就 保证 能 找到 一 个 寄存 器 了 。 


(gen.c functions) += 320 321 
static Symbol getreg(s, mask, p) 
Symbol s; unsigned mask[}; Node p; { 
Symbol r = askreg(s, mask); 
if (Cr == NULL) { 
r = spillee(s, p); 
spill(r->x.regnode->mask, r->x.regnode->set, p); 
r = askreg(s, mask); 
} 
r->x.regnode->vb1 = NULL; 
return r; 


如 果 一 个 寄存 器 已 经 分 配给 一 个 变量 ， 那 么 x.regnode->vbl 则 指向 表示 该 变量 的 符号 ; getreg 的 
默认 设 定 是 寄存 器 未 分 配给 变量 ， 所 以 清空 了 vbl 域 。 

askregvar 试图 为 一 个 局 部 变量 或 一 个 形式 参数 分 配 寄存 器 。 如 果 分 配 成 功 就 返回 1， 和 否则 返 
E] 0: 


(gen.c functions) += 321 322 
int askregvar(p, regs) Symbol p, regs; { 
Symbol r; 


(askregvar 321) 


如 果 变 量 是 聚合 类 型 ， 或 者 变量 没有 寄存 器 存储 类 别 ， 则 askregvar 拒绝 为 其 分 配 寄 存 器 : 


(askregvar 321) 三 321 321 
if (p->sclass != REGISTER) 
return 0; ; 
else if (!isscalar(p->type)) { 
p->sclass = AUTO; 
return 0; 


如 果 设 置 了 utcse， 那 么 该 变量 就 是 一 个 存储 公共 子 表达 式 的 临时 变量 。askregvar 将 会 延迟 分 配 ， 
直到 寄存 器 分 配器 处 理 了 这 个 表达 式 ; 


(askregvar 321) 十 三 321 322 321 
else if (p->temporary && p->u.t.cse) { 
p->x.name = "?"; 
return 1; 
} 


延迟 处 理 可 以 帮助 lcc 将 一 个 寄存 器 用 于 多 个 临时 变量 。 为 了 在 调试 编译 器 时 区 分 这 些 变量 ， 
askregvar 在 这 些 临 时 变量 的 xname 域 中 临时 设置 了 一 个 问号 标识 。 
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如 果 上 述 条 件 没 有 一 个 满足 ，askfegvar 就 向 askreg 申请 寄存 器 。 若 请 求 成 功 ， 符 号 了 指向 所 
申请 到 的 寄存 器 : 


(askregvar 321)+= 321 322 321 
else if (Cr = askreg(regs, vmask)) != NULL) { 
p->x.regnode = r->x.regnode; 
p->x.regnode->vb1 = p; 
p->x.name = r->x.name; 
return 1; 
} 


否则 ， 变 量 就 被 强制 放 到 栈 上 : 


(askregvar 321)+= 322 321 
else { 
p->sclass = AUTO; 
return 0; 
} 


15.3 ”寄存 器 分 配 

寄存 器 分 配 过 程 是 从 构造 指令 执行 顺序 开始 的 。linearize(p, next) 把 以 p 为 根 的 指令 树 线性 化 ， 
得 到 的 序列 通过 x.next 和 x.prev 形成 双向 链表 。 人 参数 next 指向 当前 构造 的 序列 末尾 的 一 个 标识 
点 ，linearize 函数 在 图 14-5 中 添加 点 线 ， 将 其 转换 为 图 15-1。 





ASGNI ay <n 
prisa si a 
ADDRLP _---- ADDI 
ea A 
a į 
EY CCI < CNSTI 
开始 | 4 
INDIRC 
| kids 
EE x.kids 
ADDR.: sdra x.next & x.prev 
c 


图 15-1 将 使 用 节点 排序 


(gen.c macros) += 308 
#define relink(a, b) ((b)->x.prev = (a), (a)->x.next = (b)) 
(gen.c functions) += 31 325 
static void linearize(p, next) Node next, p; { 

int i; 


for (i = 0; i < NELEMS(p->x.kids) && p->x.kids[i]; i++) 
linearize(p->x.kids[i], next); 
relink(next->x.prev, p); 
relink(p, next); 
} 
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linearize 按照 前 序 遍 历 树 ， 所 以 它 从 递归 处 理子 树 开始 ， 然 后 在 不 断 增 长 的 序列 上 添加 p， 相 当 
PH p HAA next Ail next 的 前 驱 之 间 。 第 一 个 relink 把 next 的 前 驱 的 向 后 指针 指向 p, p 的 向 前 指 
针 指 向 next 的 前 驱 。 第 二 个 relink 对 p 和 next 的 操作 与 前 相同 ， 即 p 的 向 后 指针 指向 next, next 


的 向 前 指针 指向 p。 
gen 调用 relink 对 序列 做 初始 化 ， 形 成 只 含 一 个 标记 点 的 循环 链表 : 
(linearize forest 323)= 333314 


relink(ésentinel, &sentinel); 


然后 ，gen 沿 着 森林 执行 ， 调 用 linearize 把 每 个 列 出 的 树 线性 化 ， 并 将 该 树 链接 到 不 断 增长 的 序 
列 中 ， 放 在 标记 点 前 : 
(linearize forest 323)+= 323 33 314 


for (p = forest; p; p = p->link) 
linearize(p, &sentinel); 


循环 结束 时 ，gen 将 forest 指向 序列 开头 ， 该 节点 也 就 是 循环 列表 中 跟 在 标记 点 之 后 的 节点 : 


(linearize forest 323)+= 323 323 314 
forest = sentinel.x.next; 


最 后 ，gen 将 第 一 个 x.prev 和 最 后 一 个 x.next 清 零 ， 中 断 循环 链表 : 


(linearize forest 323) += 323 314 
sentinel.x.next->x.prev = NULL; 
sentinel.x.prev->x.next = NULL; 


寄存 器 分 配器 对 森林 进行 3 遍 扫 描 。 第 一 遍 对 所 有 使 用 临时 变量 的 节点 建立 一 个 列表 。 该 
列表 指明 了 临时 变量 节点 的 最 后 一 次 使 用 ， 也 就 是 释放 临时 变量 的 时 刻 。 该 列表 还 标识 出 当 某 
个 临时 变量 溢出 到 存储 器 时 需要 发 生变 化 的 节点 。 如 果 p->syms[RX] 指向 一 个 临时 变量 ， 那 么 
p->syms[RX]->x.lastuse 的 值 就 指向 使 用 p 的 最 后 一 个 节点 ， 而 该 节点 的 x.prevuse 指向 前 一 个 使 
用 p 的 节点 ， 依 次 类 推 。 这 个 列表 包括 了 所 有 读 写 临时 变量 的 节点 : 


(allocate registers 323)= 324 314 
for (p = forest; p; p = p->x.next) 
for (i = 0; i < NELEMS(p->x.kids) && p->x.kids[i]; i++) { 
if (p->x.kids[i]->syms[RX]->temporary) { 
p->x.kids[i]->x.prevuse = 
p->x.kids[i]->syms[RX]->x. lastuse; 
p->x.kids[i]->syms[RX]->x.lastuse = p->x.kids[i]; 
} 
} 


这 段 程序 使 用 了 嵌 套 循环 ， 首 先 对 指令 进行 循环 ， 然 后 对 每 条 指令 的 子 节点 进行 循环 ,确保 按照 
指令 执行 顺序 访问 这 些 使 用 节点 。 用 一 个 非 嵌 套 的 单 层 循环 访问 森林 是 一 种 吸引 人 的 方法 ， 但 却 
不 正确 : 
for (p = forest; p; p = p->x.next) 
if (p->syms[RX]->temporary) { 
p->x.prevuse = p->syms[RX]->x. lastuse; 


p->syms[RX]->x.lastuse = p; 
} 
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该 程序 访问 的 使 用 节点 与 前 面 的 程序 一 样 ， 但 是 对 于 某 些 输入 来 说 ,访问 顺序 可 能 有 误 。 例 如 ， 
afil=afi]-l 两 次 用 到 afi] 的 地 址 ， 需 要 将 ali] 的 地 址 赋 给 一 个 临时 变量 。 上 面 错 误 的 代码 将 会 首先 
访问 INDIR 节点 ， 为 左边 的 alil 引用 取得 临时 变量 值 ， 这 样 为 右边 的 afi] 取 临 时 变量 的 INDIR 
就 会 作为 最 后 一 次 使 用 节点 出 现 。 取 完 数 后 ， 临 时 变量 就 会 被 释放 ， 用 于 存放 其 他 的 值 ， 这 时 后 
面 的 存储 指令 将 会 用 到 一 个 错误 的 地 址 。 图 15-2 就 显示 了 这 个 例子 在 x.prevuse H ERRE W 
作用 。 


ASGNI <... ASCNI <... 
INDIRI ie INDIRI suet 
ai it A RIN /A 
f i E i + ELIN 
i VREGP ! INDIRI CNSTI : VREGP ! | INDIRI CNSTI 
‘oe Bet 2 1 Ve S 1 
二 p> INDIRP INDIRP 
1 i | 
区 i 
s’ WREGP A VREGP 
a 2 站 2 
w I w 
2 i 
‘.x. lastuse for temporary 2 x. lastuse for temporary 2 
一 一 一 kids 


一 -一 kids & x.kids 
ret x.next & x.prev 
-一 -一 . x.lastuse or x.prevuse 
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第 二 遍 对 森林 的 扫描 删 去 了 一 些 用 于 寄存 器 间 复 制 的 指令 ， 实 现 方式 是 把 计算 源 寄 存 器 的 表 
达 式 重新 定向 ， 使 用 目的 寄存 器 。 如 果 源 寄存 器 是 个 公共 子 表达 式 ， 若 两 条 指令 之 间 是 顺序 执行 
的 ， 且 不 改变 目的 寄存 器 ， 我 们 就 用 目的 寄存 器 保存 该 公共 子 表达 式 : 


(allocate registers 323) += 333325 314 
for (p = forest; p; p = p->x.next) x 
if (p->x.copy && p->x.kids[0]->syms[RX]->u.t.cse) { 
Symbol dst = p->syms[RX]; 
Symbol temp = p->x.kids[0]->syms [RX]; 
Node q; 


for (q = temp->u.t.cse; q; 9 = q->x.next) 
if (p != q && dst == q->syms[RX] 
|| C(changes flow of control?325))) 
break; 
if (1q) 
for (q = temp->x.lastuse; q; q = g->x.prevuse) 
q->syms[RX] = dst; 
} 


第 一 个 内 层 循环 扫描 森林 剩余 的 部 分 ， 如 果 目 的 寄存 器 是 在 程序 块 的 后 面部 分 被 设置 ， 或 者 某 个 
节点 改变 了 控制 流 ， 就 会 提早 退出 循环 。 内 层 循环 也 可 以 在 临时 变量 释放 时 退出 ， 但 是 这 个 附加 
的 逻辑 控制 在 测试 时 ，25 000 条 指令 中 仅 减 少 了 5 条 指令 ， 所 以 我 们 不 采用 这 种 控制 。 如 果 没 有 
其 他 的 节点 设置 目的 寄存 器 ， 那 么 将 这 个 寄存 器 用 于 公共 子 表达 式 是 安全 的 。 第 二 个 内 层 循环 把 
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所 有 公共 子 表达 式 的 实例 替换 成 目的 寄存 器 。 一 旦 公共 子 表达 式 被 计算 后 放 进 dst， 最 初 的 “ 寄 
存 器 = 寄存 器 ”复制 就 把 dst 复制 到 自身 。 代 码 产生 器 与 moveself 合作 删 掉 了 这 样 的 指令 。 
调用 不 会 改变 寄存 器 变量 ， 因 此 ， 只 要 目的 寄存 器 不 存 有 寄存 器 变量 ， 就 可 以 把 调用 看 成 是 
顺序 执行 代码 中 的 一 个 中 断 : 
(changes flow of control? 325)= 324 
q->op == LABELV || q->op == JUMPV |} generic(q->op)==RET | | 
generic(q->op)==EQ || generic(q->op)==NE || 
generic(q->op)==LE || generic(q->op)==LT || 
generic(q->op)==GE || generic(q->op)==GT | | 
(generic(q->op) == CALL && dst->sclass != REGISTER) 
最 后 一 遍 扫 描 森 林 为 每 个 节点 分 配 一 个 寄存 器 。rmap 是 一 个 以 类 型 后 缀 进行 索引 的 向 量 ， 
它 的 每 个 元 素 都 是 一 个 表示 寄存 器 组 的 寄存 器 通配符 。 这 些 寄存 器 组 适合 具有 相应 类 型 的 未 定位 
节操 


(allocate registers 323)+= 324 314 
for (p = forest; p; p = p->x-next) { 
ralloc(p); 


if (p->x.listed && NeedsReg[opindex(p->op)] 
&& rmap[optype(p->op)]) { 
putreg(p->syms [RX]) ; 
} 
} 


当 父 节点 执行 到 ralloc 时 ， 释 放 寄 存 器 。 但 是 有 一 些 节点 (如 CALLI) 即使 寄存 器 值 不 再 被 使 用 ， 
由 于 该 节点 没有 父 节点 ， 它 还 是 占用 了 寄存 器 。 上 面 的 这 语句 将 释放 分 配给 这 些 节 点 的 寄存 器 。 
现 有 的 目标 机 器 只 把 上 述 代码 用 于 处 理 CALL 和 LOAD。 

ralloc(p) 释放 了 所 有 p 的 子 节点 不 再 需要 的 寄存 器 ， 然 后 ， 如 果 p 需要 一 个 寄存 器 ， 且 之 前 
未 被 处 理 ， 就 给 p 分 配 一 个 寄存 器 。 最 后 ，ralloc 调用 目标 机 器 的 clobber， 溢 出 所 有 因 这 个 节点 


(gen.c functions) += 322 329 
static void ralloc(p) Node p; { 
int i; 


unsigned mask[2]; 


mask[0] = tmask[0]; 
mask[1] = tmask[1]; 
(free input registers 326) 
if (!p->x.registered && NeedsReg[opindex(p->op)] 
&& rmap[optype(p->op)]) { 
(assign output register 326 ) 
} 
p->x.registered = 1; 
(*IR->x.clobber) (p); 
} 


如 果子 节点 产生 一 个 寄存 器 变量 ， 或 者 寄存 器 存 有 公共 子 表达 式 ， 且 该 子 表达 式 还 有 其 他 使 用 ， 
那么 这 个 寄存 器 就 不 能 被 释放 ， 下 面 的 让 语句 正好 捕获 了 这 些 例外 : 
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(free input registers 326)= 325 
for (i = 0; i < NELEMS(p->x.kids) && p->x.kids[i]; i++) { 
Node kid = p->x.kids[i]; 
Symbol r = kid->syms[RX]; 
if (r->sclass != REGISTER && r->x.lastuse == kid) 
putreg(r); 
} 


r->x.lastuse 指向 r 的 最 后 一 次 使 用 。 大 多 数 表 达 式 的 临时 变量 通常 只 被 使 用 一 次 ,但 是 分 配给 公 
共 子 表达 式 的 临时 变量 会 被 多 次 使 用 。 

现在 ralloc 为 该 节点 分 配 寄存 器 。prelabel 函数 在 p->syms[RX] 中 存储 了 一 个 寄存 器 或 通 配 
符 ， 表示 p 能 接受 的 寄存 器 。 但 是 ，askregvar 已 把 公共 子 表达 式 的 p->syms[RX] 指向 了 一 个 还 没 
有 分 配 寄存 器 的 寄存 器 变量 ， 使 情况 变 得 更 为 复杂 。 因 此 ， 我 们 需要 用 到 两 个 值 sym 和 set, H 
中 sym 等 于 p->syms[RX], set 是 适合 p 的 寄存 器 组 : 


(assign output register 326)= 326 325 
Symbol sym = p->syms[RX], set = sym; 
if (sym->temporary && sym->u.t.cse) 
set = rmap[optype(p->op)]; 


如 果 p 不 需要 寄存 器 ， 那 么 ralloc 就 执行 完毕 ; AM, ralloc 向 getreg 申请 一 个 寄存 器 并 且 把 它 
存储 在 该 节点 或 者 需要 它 的 所 有 节点 中 : 


(assign output register 326) += 326 325 
if (set->sclass != REGISTER) { 
Symbol r; 


(mask out some input registers 327) 
r = getreg(set, mask, p); 
(assign r to nodes 327) 

} 


ralloc 在 分 配 输出 寄存 器 之 前 要 释放 输入 寄存 器 ， 这 样 输入 寄存 器 可 以 当 作 输 出 寄存 器 重新 使 用 。 
当 节点 用 单 指令 实现 时 ， 这 种 节省 总 是 安全 的 ; 但 是 如 果 节 点 由 指令 序列 来 实现 ， 这 种 节省 就 不 
安全 了 : 如 果 输 出 寄存 器 是 输入 寄存 器 之 一 ， 而 且 指令 序列 在 读 相应 的 输入 寄存 器 之 前 改变 了 输 
出 寄存 器 ， 那 么 读 操 作 取 出 的 是 一 个 错误 的 值 。 因 此 要 注意 ， 所 有 产生 指令 序列 的 规则 只 能 在 完 
成 所 有 对 输入 寄存 器 的 读 操 作 之 后 才能 设置 输出 寄存 器 。 大 多 数 模 板 仅 产生 一 条 指令 ， 所 以 前 面 
我 们 假定 节点 是 单 指令 实现 的 可 以 作为 系统 的 默认 值 ， 但 也 要 充分 考虑 多 指令 序列 的 情况 。 

对 于 需要 输出 寄存 器 是 输入 寄存 器 之 一 的 指令 来 说 ， 这 个 规则 很 不 实用 。 例 如 X86 的 加 法 
指令 只 取 两 个 操作 数 ， 它 把 第 二 操作 数 加 到 第 一 操作 数 上 ， 并 将 结果 存 于 第 一 操作 数 中 。 如 果 第 
一 操作 数 还 没有 失效 ， 生 成 的 代码 就 必须 把 结果 放 到 一 个 空闲 的 寄存 器 中 ， 因 此 加 法 首先 就 要 把 
第 一 操作 数 复制 到 该 寄存 器 中 ， 这 样 代码 模板 就 有 两 条 指令 : 第 一 条 是 将 第 一 操作 数 复制 到 目的 
寄存 器 中 ， 第 二 条 是 计算 和 。 例 如 ，X86 的 加 法 模板 是 : 

reg: ADDICreg,mril) “mov %c,%0\nadd %c,%1\n" 2 

这 样 的 模板 在 完成 所 有 对 输入 寄存 器 的 读 操 作 之 前 改变 了 输出 寄存 器 ， 所 以 破坏 了 上 述 
规则 。 

为 了 处 理 两 操作 数 指令 ， 我 们 在 其 代码 模板 的 开头 用 一 个 问号 做 标记 。 上 述 规则 的 完整 形 
式 是 : 

reg: ADDI(reg,mril) “?mov %c,%O0\nadd %c,%1\n" 2 
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当 ralloc 看 到 这 样 的 规则 时 ， 就 修改 了 mask 以 防止 对 其 他 所 有 输入 寄存 器 (除了 第 一 个 ) 进行 重 
新 分 配 ， 因 此 下 面 的 循环 从 1 而 不 是 从 0 开始: 


(mask out some input registers 327)= 326 
if (*IR->x._templates[getrule(p, p->x.inst)] == '?') 
for Ci = 1; i < NELEMS(p->x.kids) && p->x.kids{i]; i++) { 
Symbol r = p->x.kids[i]->syms [RX]; 
mask[r->x.regnode->set] &= ~r->x.regnode->mask; 


代码 生成 器 必须 注意 没有 节点 与 其 子 节点 〈 除 了 第 一 个 子 节点 ) 定位 在 相同 的 寄存 器 上 。 
寄存 器 一 旦 被 分 配 ，ralloc 就 把 它 存 人 使 用 它 的 节点 中 : 
(assign r to nodes 327)= 326 
if (sym->temporary && sym->u.t.cse) { 
Node q; 
r->x. lastuse = sym->x.lastuse; 
for (q = sym->x.lastuse; q; q = q->x.prevuse) { 
q->syms[RX] = r; 
q->x.registered = 1; 
if (q->x. copy) 
q->x.equatable = 1; 
} 
} else { 
p->syms[RX] = r; 
r->x.lastuse = p; 
} 
如 果 该 节点 不 是 一 个 公共 子 表达 式 ，else 从 名 就 会 把 T 存 进 p->syms[RX], FIFE r->x.lastuse 中 记 
录 下 这 个 使 用 。 如 果 sym 是 一 个 公共 子 表达 式 ， 则 x.lastuse 已 经 标明 了 使 用 点 。 程 序 段 需要 遍历 
使 用 列表 ， 存 储 z， 并 给 节点 做 上 已 被 寄存 器 分 配 融 处 理 过 的 标记 。 另 外 ， 如 果 公 共 子 表达 式 已 
经 存在 于 其 他 一 些 寄存 器 中 ， 则 设置 节点 的 x.equatable。 


15.4 寄存 器 溢出 


当 寄 存 器 分 配器 用 完 吞 存 器 时 ， 需 要 生成 代码 溢出 一 个 忙 寄 存 器 ， 将 其 值 存 回 到 存储 器 中 ， 
并 将 那些 未 被 处 理 的 使 用 该 寄存 器 的 节点 替换 成 从 存储 器 中 重 取 该 值 的 节点 。 实 际 上 还 有 更 多 有 
创意 的 方法 (参见 练习 15.6 和 练习 15.7 )， 但 是 lec 没有 采纳 这 些 方法 。 因 为 溢出 并 不 常 出 现 ， 所 
以 loo 的 溢出 程序 在 不 牺牲 与 目标 机 器 无 关 性 的 情况 下 已 经 尽 可 能 简单 。 花 精力 去 优化 调试 那些 
很 少 使 用 的 代码 是 一 种 无 谓 的 浪费 。 现 实 中 很 难 找到 测试 这 些 代 码 的 程序 ， 也 很 难 将 这 些 测 试 程 
序 独立 出 来 ， 要 彻底 地 测试 一 个 复杂 的 溢出 实现 是 非常 困难 的 事情 。 

当 寄 存 器 分 配器 用 完 寄 存 器 时 ， 最 优选 择 是 把 最 远 使 用 的 寄存 器 溢出 到 存储 器 中 。 溢 出 器 将 
未 被 处 理 的 使 用 该 寄存 器 的 节点 替换 成 从 存储 器 中 重 取 该 值 的 节点 ， 然 后 释放 寄存 器 以 满足 当前 
要 求 。 

溢出 由 几 个 例 程 合 作 处 理 : spillee 识别 最 适合 溢出 的 寄存 器 ，spillr 调用 genspill 来 插 和 人 溢出 
代码 ，genreload 插入 重 取代 码 。 图 15-3 说 明了 针对 下 面 的 程序 ， 这 几 个 例 程 是 如 何 操作 的 : 

int i; 

maint) { i = fO + fO; } 
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样 该 返回 值 就 不 会 被 第 二 次 调用 破坏 了 。 





ASGNI -- -、、 ASGNI S ASCNI < 
VREGP LOADI ， VREGP LOADI : : VREGP LOADI<r，: 
2 ans: 2 ENIF 2 We Al 
A 开始 Y Si: 
CALLI ; ALI | | gr CALLI 
ADDRGP ' ADDRGP = 5 ADDRGP ; ` 
n ' f ASGNI < tisoy 
Tis : i K 
kids & } : Fi Bi 
ee : ADDRLP INDIRI < 
sit hat Vink h : 4 
Pre bax EE x. next & ; ; 
x.prev i : VREGP 
ri 2 
„--- ASGNI < aD ASGNI | : won ASGNI <t. 
Í VREGP LOADI Í VREGP LOADI : : VREGP LOADI 
i 3 | adir. v, : : 3 X 
: #3 : E s 
CALLI ; CALLI < i CALLI < 
ADDRGP ` ADDRGP ; ADDRGP 
f i f f 
`~- > ASGNI : ASGNI + : ASGNI < 
5 : 5 
ADDRGP ADDI i ADDRGP ADDI <... >  ADDRGP ADDI q... 
i ME hi, i i “ 
Ze a 2 ni A 5 3 5 
INDIRI INDIRI “i>INDIRI INDIRI A „> INDIRI 
Wt INDIRI 4” 
VREGP VREGP VREGP VREGP | VREGP 
2 3 2 3 ADDRLP 3 
4 


图 15-3 i=fOHfO 中 的 溢出 


图 中 第 1 列 显示 了 代码 生成 前 的 森林 ， 即 来 自 编译 器 前 端的 森林 经 prelabel 函数 处 理 后 形成 
的 森林 ，prelabel 把 访问 临时 寄存 器 变量 的 ADDRL 替换 成 VREG， 并 插入 LOAD 以 写 人 这 样 的 
寄存 器 。 第 2 列 显示 了 线性 化 之 后 的 森林 ， 它 假定 带 有 空心 稍 头 的 弧 线 连接 的 节点 是 指令 (尽管 
读 写 寄存 器 的 节点 INDIR 和 ASGN 只 是 典型 的 注释 指令 )， 剩 下 的 是 地 址 计算 之 类 的 子 指令 。 最 
后 一 列 展示 了 插 人 的 溢出 和 重 取 操作 ， 这 里 使 用 了 ADDRLP(4)。 后 两 列 的 黑色 箭头 显示 了 kids 
和 x.kids， 这 是 将 子 指令 从 树 中 删除 后 剩 下 的 连接 。 
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getreg HEATA, WJH spillee(set,here), 7E set 中 寻找 使 用 点 离 here 最 远 的 寄存 器 ; 


(gen.c functions) += 325 329 
static Symbol spillee(set, here) Node here; Symbol set; { 
Symbol bestreg = NULL; 
int bestdist = -1, i; 


if (!set->x.wildcard) 
return set; 
for Ci = 31; i >= 0; i--) { 
Symbol ri = set->x.wildcard[i]; 
if (ri != NULL && ri->x.]astuse 
&& ri->x.regnode->mask&tmask[ri->x.regnode->set]) { 
Regnode rn = ri->x.regnode; 
Node q = here; 
int dist = 0; 
for (; q & !uses(q, rn->mask); q = q->x.next) 
dist++; 
if (q && dist > bestdist) { 
bestdist = dist; 
bestreg = ri; 
h; 
} 
} 
return bestreg; 


} 
如 果 set 不 是 一 个 通配符 ， 那 么 就 表示 一 个 单一 的 寄存 器 ， 也 只 有 这 个 寄存 器 可 以 被 溢出 ，spillee 
就 简单 地 返回 这 个 寄存 器 。 否 则 ，set 表示 一 个 相应 的 寄存 器 组 ，spillee 从 中 找 出 一 个 最 远 使 用 的 
元 素 。spillee 调用 uses 检查 节点 p 是 否 读 取 了 一 个 给 定 的 寄存 器 : 


(gen.c functions) += 329 329 
Static int uses(p, mask) Node p; unsigned mask; { 
int i; 
Node q; 


for Gi = 0; i < NELEMS(p->x.kids) 
&& (q = p->x.kids[i]) != NULL; i++) 
if (q->x. registered 
&& mask&q->syms [RX] ->x. regnode->mask) 


return 1; 
return 0; 
} 
spillr(r,here) 溢出 寄存 器 rr， 并且 把 here 之 后 r 的 每 个 使 用 都 替换 成 一 个 重 取 操 作 : 
(gen.c functions) += 329 330 
static void spilir(r, here) Symbol r; Node here; { 
intz 
Symbol tmp; 
Node p = r->x.lastuse; 
(spillr 330) 


} 
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spillr $4. 25 FF th mn HH BAP as, AIL ae HB APE a, (ORE BES EAA 
E, AM FAIRA, FERS ARIE ST. spillr 找到 第 一 个 使 用 点 (x.prevuse 链 以 第 一 个 使 用 点 
结束 )， 即 对 r 进行 定 值 的 使 用 点 : 
(spil1r330)= 330 329 
while (p->x.prevuse) 
p = p->Xx.prevuse; 
r 可 以 存放 一 个 简单 的 只 被 使 用 一 次 的 表达 式 临 时 变量 ， 也 可 能 保存 一 个 使 用 多 次 的 公共 子 表达 
式 。 二 者 都 是 由 一 条 指令 完成 赋值 的 。spillr 找到 这 个 变量 后 ， 把 它 送 给 genspill, genspill 在 森林 
的 赋值 点 上 舱 入 一 个 溢出 节点 : 
(spil1r330)+= 330 330 329 
tmp = newtemp(AUTO, optype(p->op)); 
genspill(r, p, tmp); 
溢出 可 以 在 赋值 节点 与 here 之 间 的 任何 位 置 进行 ， 但 在 赋值 的 位 置 进行 是 很 安全 的 ， 这 也 解释 了 
为 什么 图 15-3 中 的 溢出 发 生 在 最 后 一 列 的 第 一 棵 树 。 
EFE, spill 将 所 有 剩余 的 读 取 r 的 节点 改 成 从 溢出 单元 取 值 ; 最 后 是 释放 r: 


(spi11r 330) += 330 329 
for (p = here->x.next; p; p = p->x.next) 
for (i = 0; i < NELEMS(p->x.kids) && p->x.kids[i]; i++) { 
Node k = p->x.kids[i]; 
if (k->x.registered && k->syms[RX] == r) 
genreload(p, tmp, i); 
} 
putreg(r); 
基于 一 些 错 综 复 杂 的 原因 ， 从 here->x.next 开始 搜索 读 取 r 的 节点 ， 而 不 是 从 here FF aR. here 能 
将 自身 的 一 个 子 节点 溢出 。 例 如 ， 代 码 (*D0 可 把 一 个 指针 的 值 写 人 调用 程序 保存 的 寄存 器 ， 然 
后 使 用 一 个 间接 调用 指令 ， 这 样 clobber 一 定 会 溢出 。 大 多 数 指令 模板 只 含有 一 条 指令 ， 所 以 必 
须 在 破坏 之 前 完成 读 取 输 入 寄存 器 的 操作 。 例 如 ， 间 接 调 用 在 利用 完 其 值 之 前 不 会 破坏 地 址 寄存 
器 ， 除 非 该 地 址 寄存 器 又 被 调用 指令 之 后 的 其 他 指令 访问 ， 这 些 指 令 都 是 在 here->x.next 之 后 的 
操作 。 
另外 ，genreload 不 会 调用 ralloc 为 插入 的 节点 分 配 寄存 器 。genreload 把 每 个 重 取 指令 艇 入 指 
令 序 列 中 ， 放 在 使 用 重 取 值 的 指令 之 前 。 这 些 指令 已 经 在 here 和 或 在 其 之 前 访问 了 溢出 值 ， 但 是 
genreload 把 它们 修改 成 使 用 here 之 后 的 重 取 指 令 。 我 们 只 是 把 对 新 指令 的 寄存 器 分 配 ， 推 迟到 
ralloc 在 余下 的 指令 序列 中 直到 它们 的 时 候 。 
genspill(r,last,tmp) 在 last 处 把 对 Fr 的 赋值 溢出 到 tmp: 
(gen.c functions) += 329 332 
static void genspill(r, last, tmp) 
Symbol r, tmp; Node last; { 
Node p, q; 
Symbol s; 
unsigned ty; 


(genspil1 33!) 
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genspill 合成 一 个 具有 适当 类 型 的 寄存 带 变 量 用 于 溢出 : 


(gensp111 331)= 331 330 
ty = optype(last->op); 
if (ty == U) 
ty = I; 
NEWO(s, FUNC); 
s->sclass = REGISTER; 
S->xX.name = r->x.name; 
S->x.regnode = r->x.regnode; 
s->x.regnode->vbl = s: 


被 溢出 的 寄存 器 不 是 一 个 寄存 器 变量 ,但 由 于 INDIRx ( VREGP) 不 会 产生 任何 指令 ， 所 以 我 们 
假定 它 是 一 个 寄存 器 变量 ， 以 保证 不 会 有 生成 计算 溢出 值 的 指令 。 滋 出 值 已 经 被 计算 出 来 了 ,不 
需要 额外 的 指令 。 接 着 genspill 创建 节点 把 寄存 器 溢出 到 存储 器 : 
(genspi11331 ) 二 三 331 331 330 

q = newnode(ADDRLP, NULL, NULL, s); 

q = newnode(INDIR + ty, q, NULL, NULL); 

p = newnode(ADDRLP, NULL, NULL, tmp); 

p = newnode(ASGN + ty, p, q, NULL); 


SLE, genspill 选择 指令 ， 吻 除 子 指令 并 对 得 到 的 指令 树 进 行 线性 化 : 


(genspi11 331)+= 31 331 330 
rewrite(p); 
prune(p, &q); 
q = last->x.next; 
linearize(p, q); 


最 后 ，genspill 用 寄存 器 分 配器 遍历 新 产生 的 节点 : 


(genspi11331)+= 81 330 
for (p = last->x.next; p != q; p = p->x.next) { 
ralloc(p); 


如 果 是 因为 ralloc 用 完了 寄存 器 而 引起 对 genspill 的 调用 ， 并 且 这 些 调用 确实 想 要 分 配 一 个 寄存 
器 ， 那 么 这 些 调用 可 能 会 导致 无 穷 递归 。 我 们 必须 注意 代码 生成 器 可 以 在 不 分 配 新 寄存 器 的 情 
况 下 使 一 个 寄存 器 溢出 。 滋 出 就 是 存储 ， 通 常 只 需要 一 条 指令 ， 因 而 不 需要 额外 的 寄存 器 。 但 是 
有 些 机 器 限制 了 地 址 计算 中 常量 部 分 的 大 小 ， 这 样 就 需要 两 条 指令 和 一 个 临时 寄存 器 来 将 数据 存 
储 到 任意 地 址 。 所 以 我 们 必须 确保 这 些 存 储 所 使 用 的 寄存 器 不 会 被 ralloc 做 另外 的 分 配 。MIPS 
R3000 体系 结构 中 有 这 样 的 限制 条 件 ， 但 它 是 通过 为 汇编 程序 预 留 临 时 寄存 器 ， 由 汇编 程序 解决 
这 个 问题 的 。 SPARC 是 到 目前 为 止 唯一 需要 关注 代码 生成 器 的 目标 机 器 。17.2 节 将 对 此 进行 详 述 。 
genspill 对 ralloc 的 调用 不 能 分 配 任何 寄存 器 ， 但 是 ralloc 还 负责 分 配 寄存 器 以 外 的 工作 ， 因 
此 genspill 仍 将 调用 它 。 例 如 ，zralloc 可 以 调用 目标 机 器 的 clobber。 当 然 ， 用 一 个 简单 的 存储 
操作 就 能 使 clobber 完成 任何 事情 ， 似 乎 不 太 现实 ， 但 是 将 来 会 有 一 些 目标 机 器 能 做 到 这 一 点 。 
所 以 如 果 不 调用 ralloc，genspill 将 掩盖 一 个 潜在 的 错误 。 编 译 器 后 端 对 所 有 其 他 的 节点 都 调用 
rewrite, prune, linearize 和 ralloc， 因 此 对 溢出 节点 而 言 ， 忽 略 任 何 一 步 都 是 不 明智 的 。 
genreload(p,tmp,i) 修改 了 p->x.kids[i] 以 读 取 tmp， 而 不 是 读 取 已 被 洪 出 的 寄存 器 : 
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(gen.c functions) += 330 3 
static void genreload(p, tmp, i) 
Node p; Symbol tmp; int i; { 

Node q; 
int ty; 


w 
we 


4 


(genreload 332) 
} 二 


genreload 将 目标 节点 改 成 一 棵 读 取 tmp 的 树 ， 并 为 其 选择 指令 以 及 剔除 子 指令 : 
(genreload 332 ) 三 332 332 
ty = optype(p->x.kids[i]->op) ; 
if (ty == U) 
ty = I; 
q = newnode(ADDRLP, NULL, NULL, tmp); 
p->x.kids[i] = newnode(INDIR + ty, q, NULL, NULL); 
rewrite(p->x.kids{i]); 
prune(p->x.kids[i}, &q); 
接着 ，genreload 线性 化 重 取 指令 ， 在 调用 prune 对 指令 树 剪 枝 之 后 这 样 做 是 很 正常 的 ,但 首先 需 
要 增加 额外 的 两 步 : 
(genreload 332)+= 332 332 
reprune(&p->kids[1], reprune(&p->kids[0], 0, i, p), i, p); 
prune(p, &q); 
linearize(p->x.kids{i], p); 
在 大 多 数 情况 下 ，x.kids 的 每 个 人 口 都 是 通过 prune 从 某 些 kids 的 入 口 复制 的 ， 但 是 genreload 只 
改变 x.kids[i， 并 不 修改 任意 kids 中 相应 的 入口 。 由 于 产生 器 要 使 用 kids， 所 以 genreload 必须 找 
到 相应 的 人 口 并 进行 更 新 。genreload 调用 reprune 完成 这 项 工作 ， 并且 第 二 次 调用 prune Xt p 48 
向 的 节点 做 了 类 似 的 修改 。 
当 p->x.kids[n] 被 修改 后 ，genreload 调用 reprune(pp,k, n, p) 重建 kids 与 x.kids 之 间 的 连接 ， 
也 就 是 说 ，reprune 必须 使 得 重 取 指令 看 起 来 就 像 一 开始 就 在 森林 中 一 样 。 这 样 ，reprune 是 prune 
的 一 个 扩充 版 本 : prune 为 一 棵 完整 的 树 在 kids 与 x.kids 之 间 建 立 了 对 应 ， 而 reprune 是 在 其 中 一 
个 发 生 改变 之 后 重建 这 种 对 应 ， 即 其 中 一 个 与 重 取 相关 。 图 15-4 显示 了 reprune 怎样 修复 图 15-3 
中 最 后 的 树 。 
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图 15-4 图 15-3 的 重 取 在 调用 reprune 之 前 和 之 后 的 情形 
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起 初 ， 在 根 层次 上 调用 reprune 时 有 一 个 指针 pp， 它 指向 第 一 个 可 能 需要 修改 的 kids ÀH : 


(gen.c functions) += $92 333 
static int reprune(pp, k, n, p) Node p, *pp; int k, n; { 
struct node x, *q = *pp; 
if (q == NULL |] k > mn) 
return k; 
else if (q->x.inst == 0) 
return reprune(&q->kids[1], 
reprune(&q->kids[0], k, n, p), n, p); 
if (k= n) { 
*pp = p->x.kids[n]; 
x = *p; 
CIR->x.target)(&x); 
} 


return k + 1; 


} 


kids 链接 原来 的 树 ，x.kids 链接 指令 树 。 第 2 步 是 对 第 1 步 做 删除 ， 但 删除 的 节点 数 并 不 确定 ， 
所 以 对 树 进 行 递归 搜索 才能 找到 与 p->x.kids[i] 对 应 的 kids 入 口 。 对 reprune 的 递归 调用 与 对 
prune 的 递归 调用 类 似 。 这 些 调用 会 干扰 k 的 值 ， 该 值 从 0 开始 ， 当 prune 找到 一 条 指令 ， 并 在 
x.kids 中 设置 下 一 个 人 口 时 ， 让 p 继续 前 进 。 故 当 到 达 n 时 ，reprune 已 经 找到 了 kids 入 口 进行 
更 新 ， 而 且 x 限制 了 对 重 取 的 改动 。 

getreg 函数 和 每 个 目标 机 器 的 clobber 函数 都 调用 spill(mask,n,here) 来 溢出 寄存 器 组 m 中 所 有 
的 忙 寄存 器 ， 这 些 寄存 器 由 mask 指定 。 一 个 典型 的 应 用 就 是 CALL 节点 ,一般 说 来 ， 函 数 调用 
总 会 引发 某 些 寄存 器 的 冲突 ， 它 们 在 调用 之 前 必须 溢出 ， 调 用 之 后 必须 重新 读 取 。spill 将 这 些 寄 
存 器 标记 为 已 使 用 ， 然 后 遍历 森林 的 其 余部 分 ， 寻 找 需 要 溢出 的 活动 寄存 器 。 比 较 经 济 的 做 法 是 
先 确认 是 否 存在 需要 溢出 的 寄存 带 。 


(gen.c functions) += % 

void spill(mask, n, here) unsigned mask; int n; Node here; { 
int<+% 
Node p; 


usedmask[n] |= mask; 
if (mask&~freemask[n]) 
for (p = here; p; p = p->x.next) 


(spi11 333 ) 
} 
下 面 的 内 层 循环 识别 了 需要 溢出 的 活动 寄存 器 ， 并 调用 spillr 来 溢出 它们 : 
(spi11333)= 333 


for (i = 0; i < NELEMS(p->x.kids) && p->x-.kids[i]; i++) -{ 
Symbol r = p->x.kids[i]->syms [RX]; 
if (p->x.kids[i]->x. registered && r->x.regnode->set == n 
&& r->x.regnode->maskémask) 
spilircr, here); 
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溢出 操作 使 lec 可 以 释放 调用 程序 保存 的 寄存 器 ， 这 也 是 用 于 处 理 一 些 古 怪 指令 的 机 制 的 特 
例 ， 这 些 古怪 指令 会 破坏 某 些 固定 寄存 器 组 。 
深入 阅读 

指令 的 执行 顺序 决定 了 指令 的 输出 顺序 。 大 多 数 语言 只 是 部 分 受 约束 。 例 如 ，ANSI 规定 必 
须 按 顺序 地 计算 赋值 语句 ; 但 是 又 不 关心 先 计算 赋值 的 哪个 操作 数 。linearize 使 用 一 个 固定 的 顺 
FR, 也 可 能 有 更 好 的 选择 。 例 如 ，Sethi-Uliman 标记 (numbering) 算法 (Aho, Sethi and Ullman, 
1986 ) 采用 的 办 法 就 是 先 计 算 需 要 最 多 个 寄存 器 的 子 节点 以 节省 寄存 器 。 

指令 调度 和 寄存 器 分 配 相 互 影响 。 在 使 用 指令 结果 之 前 早早 地 开始 执行 较 慢 的 指令 是 有 好 
处 的 ， 但 是 这 样 需要 占用 结果 寄存 器 更 长 的 时 间 ， 因 而 需要 更 多 寄存 器 。Proebsting and Fischer 
(1991 ) 解决 了 从 一 个 方面 进行 简单 的 取舍 。Krishnamurthy ( 1990 ) 综述 了 有 关 指 令 调 度 的 许多 
文献 。 

许多 功能 强大 的 寄存 器 分 配器 使 用 了 图 着 色 方 法 。 编 译 器 建立 一 张 图 ， 其 中 节点 是 计算 得 到 
的 值 ， 当 且 仅 当 两 个 值 同 时 有 效 时 把 这 两 个 节点 链接 起 来 ， 这 意味 着 它们 不 能 共用 一 个 寄存 器 ， 
也 就 是 不 能 标 为 同一 种 颜色 。Chaitin et al. (1981) 描述 了 这 个 过 程 。 

选择 一 个 寄存 器 溢出 与 操作 系统 中 的 页 替换 是 紧密 相关 的 。 虚 拟 存储 系统 并 不 知道 哪 一 个 是 
最 远 使 用 的 页 ， 但 溢出 器 能 决定 哪 一 个 是 最 远 使 用 的 寄存 器 (Freiburghouse, 1974). 
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15.1 15.3 WHAT lec 所 没有 使 用 的 优化 措施 ， 该 措施 在 测试 时 25 000 条 指令 中 只 省 掉 了 5 条 指令 。 请 实 
现 这 样 一 个 优化 程序 ， 看 看 是 否 能 发 现 优化 效果 更 好 的 有 用 程序 。 

15.2 用 Sethi-Ullman 标记 算法 改写 lcc， 看 看 对 应 于 你 的 程序 ，lce 编译 产生 的 代码 的 效率 提高 了 多 少 ? 

15.3 ”构造 一 些 输入 程序 以 检验 溢出 器 。 

15.4 对 spillee 进行 改造 ， 使 其 溢出 最 近 最 少 使 用 的 寄存 器 。 通 过 计时 ， 你 能 发 现 改造 前 后 在 编译 速度 上 或 
在 生成 的 代码 质量 上 所 发 生 的 变化 吗 ? 

15.5 最 简单 的 编译 器 没有 溢出 器 ， 发 生 问题 时 会 退出 并 启动 诊断 程序 。 删 除 loc 的 洲 出 器 并 修改 clobber。 
这 个 新 的 编译 器 能 够 简化 到 什么 程度 ? 在 你 常用 的 C 语言 程序 中 ,在 任意 一 个 程序 发 生 编译 错误 
之 前 , 已 经 编译 了 多 少 程序 ? 如 果 将 CALL 节点 改 成 从 结果 寄存 器 复制 到 任意 一 个 寄存 器 ， 以 避免 
fO+fO 中 的 溢出 ， 那 么 前 面 一 问 中 的 程序 的 数目 将 怎样 改变 ? 

15.6 有些 溢出 发 生 在 寄存 器 仍然 有 用 的 时 候 。 例 如 ， 表 达 式 fD+tO， 尽 管 其 他 寄存 器 可 能 是 空闲 的 ， 但 第 
二 次 调用 需要 同一 个 返回 寄存 器 ， 因 此 必须 从 返回 寄存 器 中 溢出 第 一 个 返回 值 。 修 改 lee 的 溢出 器 以 
将 溢出 的 值 存 人 另 一 个 寄存 器 ， 这 种 改变 对 你 常用 的 C 语言 程序 代码 能 起 多 大 改进 ?这样 做 值得 吗 ? 

15.7 lcc 为 溢出 之 后 处 理 的 每 一 次 引用 都 生成 了 一 个 重 取 操作 ， 其 实用 较 少 的 几 个 重 取 操作 就 足够 了 。 修 
改 lec 的 溢出 器 以 避免 无 意义 的 重 取 ， 这 种 改变 对 你 常用 的 C 语言 程序 代码 能 起 多 大 改进 ? 这 样 做 值 
得 吗 ? 
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MIPS R3000 体系 结构 与 配套 的 R3010 浮 点 功能 部 件 组 成 了 RISC， 它 们 各 有 32 个 32 位 寄存 
器 ， 另 外 包含 一 个 32 位 的 紧缩 指令 集 和 一 种 寻 址 模式 。MIPS R3000 和 R3010 只 能 通过 显 式 存 取 
指令 来 访问 存储 器 ， 函 数 调用 约定 规定 通过 寄存 器 传递 某 些 参数 。 

我 们 本 可 以 先 完 整地 描述 MIPS 汇编 语言 ， 但 本 章 不 打算 作为 MIPS 汇编 语言 参考 手册 来 讲 ， 
而 是 从 表 16-1 中 列举 的 示例 指令 入 手 。 这 样 可 以 避免 一 些 重复 的 工作 ， 比 如 前 面 已 经 单独 描述 
了 加 法 指令 ， 在 后 面 讲述 ADDI 规则 时 又 会 介绍 一 次 加 法 指令 。 在 这 里 描述 MIPS 汇编 语言 的 目 
的 是 想 帮 助 读者 理解 汇编 语言 的 一 般 语 法 ， 即 寄存 器 、 地 址 、 操 作 码 和 汇编 指示 符 的 特征 及 使 
用 。 在 此 基础 上 ， 加 上 描述 规则 的 模板 和 文本 ， 以 及 重复 规则 的 对 应 构件 ， 我 们 将 能 明确 对 目标 
机 器 的 认识 。 

表 16-1 MIPS 汇编 器 输入 样 例 


汇编 指令 意义 
move $10, $11 将 寄存 器 10 的 值 设 置 为 寄存 器 11 的 值 
subu $10,$11, $12 将 寄存 器 10 的 值 设置 为 寄存 器 11 的 值 减 去 寄存 器 12 的 值 
subu $10, $11, 12 将 寄存 器 10 的 值 设 置 为 寄存 器 11 的 值 减 去 常量 12 
Ib $10, 11($12) 将 寄存 器 10 的 值 设置 为 地 址 为 寄存 器 12 的 值 加 上 寄存 器 11 的 字 节 单元 的 值 


sub.d $f12, $f14, $f16 ”| 将 寄存 器 12 的 值 设置 为 寄存 器 14 的 值 减 去 寄存 器 16 的 值 ， 使 用 双 精 度 浮 点 寄存 器 和 运算 
sub.s $f12, $f14, $f16 ”| 将 寄存 器 12 的 值 设置 为 寄存 器 14 的 值 减 去 寄存 器 16 的 值 ， 使 用 单 精 度 浮 点 寄存 器 和 运算 
bLI 跳 转 到 标号 为 Ll 的 指令 处 


j $31 跳 转 到 寄存 器 31 所 指 的 单元 
blt $10, $11, L1 如 果 寄 存 器 10 的 值 小 于 寄存 器 11 的 值 ， 则 转移 到 标号 L1 处 
.byte 0x20 将 内 存 中 下 一 个 字 节 单元 初始 化 成 十 六 进 制 数 20 


文件 mips.c 包含 了 所 有 MIPS 代码 生成 器 的 代码 和 数据 。 下 面 是 带 接口 例 程 的 lburg 规范 ， 
其 中 接口 例 程 在 文法 的 后 面 : 


(mips .md 335 ) 三 
%{ 


(mips.c macros) 

{Iburg prefix 293) 
(interface prototypes) 
(MIPS prototypes) 

(MIPS data 337) 

%} 

(terminal declarations 293 ) 
X% 


(shared rules 312) 

(MIPS rules 339) 

%% 

(MIPS functions 337) 

(MIPS interface definition 336) 
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最 后 的 程序 段 (接口 定义 ) 配置 前 端 ， 并 指向 后 端的 MIPS 的 代码 和 数据 。 大 多 数目 标 机 器 只 有 
一 个 接口 记录 , 但 是 MIPS 结构 的 机 器 能 进行 高 位 优先 或 低位 优先 两 种 配置 ， 所 以 loc 需要 两 个 
接口 记录 来 对 应 这 两 种 配置 : 
(MIPS interface definition 336 )= 335 
Interface mipsebIR = { 
(MIPS type metrics 336) 
0, /* little_endian */ 
(shared interface definition 336 ) 
}, mipselIR = { 
(MIPS type metrics 336) 
1, /* little_endian */ 
(shared interface definition 336 ) 
Y; 
数据 设备 公司 (Digital Equipment Company) 采用 Ultrix 操作 系统 ， 采 取 低 位 优先 配置 并 使 用 
mipselIR。SGI 公司 采用 RIX 操作 系统 ， 采 取 高 位 优先 配置 并 使 用 mipsebIR。 两 个 系统 共享 同一 
种 类 型 度量 : 
at type metrics 336 )= 336 
0, /* char */ 
0, /* short */ 
0; yA int */ 
1, /* float */ 
1, /* double */ 
0, /* F * xf 
0,. /* struct. */ 
它们 还 共享 其 余 的 接口 记录 : 


(shared interface definition 336 )= 336 
0, /* mulops_calls */ 
0, /* wants_callb */ 
1, /* wants_argb */ 
1, /* Yeft_to_right, */ 
0, /* wants_dag */ 
(interface routine names) 
0, 0, 0, stabinit, stabline, stabsym, 0, 
{ 


4, /* max_unaligned_load */ 
(Xinterface initializer 277) 


我 们 忽略 了 一 些 符 号 表 处 理 程 序 。 像 许多 编译 器 一 样 ，lcec 假设 所 有 用 于 调试 程序 的 数据 都 
能 使 用 汇编 指示 符 编码 。MIPS 编译 髓 采用 这 种 方式 对 文件 名 和 程序 行 号 编码 ,但 有 关 标 识 符 的 
类 型 和 位 置 的 信息 被 编码 后 放 人 另外 的 文件 ，lcc 并 不 发 送 该 文件 。 这 样 ，MIPS 的 调试 程序 能 够 
准确 地 报告 lce 生成 的 可 执行 文件 中 的 错误 出 现 的 位 置 ， 但 却 不 能 报告 或 改变 标识 符 的 值 ; 参见 
练习 16.5。 


16.1 寄存 器 


MIPS R3000 处 理 器 内 含 32 个 32 位 寄存 器 ， 在 汇编 程序 中 用 $i 表示。MIPS R3010 的 浮 点 
协 处 理 器 在 此 基础 上 又 添加 了 32 个 32 位 寄存 器 ， 用 $fi 表示 ， 它 们 通常 当成 16 个 64 位 寄存 器 
使 用 ， 这些 64 位 的 寄存 器 用 偶数 号 码 标识 ， 例 如 $ 亿 。 
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在 硬件 上 通常 存在 一 些 限制 ， 比 如 寄存 器 $0 的 值 恒 为 0， 跳 转 链接 指令 的 返回 地 址 总 是 存 
A $31, MIPS 结构 的 loo 还 必须 遵守 更 多 其 他 编译 器 使 用 的 约定 ， 以 便 共 享 标准 库 和 调试 程序 。 
表 16-2 列举 了 这 些 约定 。 
# 16-2 MIPS 寄存 器 约定 


寄存 器 用 途 

$0 0， 并 保持 不 变 

$1 为 汇编 器 保留 

$2 ~ $3 函数 返回 值 

$4 ~ $7 开头 的 若干 过 程 参数 
$8 ~ $15 临时 寄存 器 

$16 ~ $23 寄存 器 变量 

$24 ~ $25 临时 寄存 器 

$26 ~ $27 为 操作 系统 保留 

$28 全 局 指针 ， 也 称 为 $gp 
$29 栈 指 针 ， 也 称 为 $sp 
$30 寄存 器 变量 

$31 过 程 返回 地 址 

$f0 ~ $f2 函数 返回 值 

$f4 ~ $f10 临时 寄存 器 

$f12 ~ $f14 开头 的 两 个 过 程 参数 
$f16 ~ $f18 临时 寄存 器 

$f20 ~ $f30 寄存 器 变量 


汇编 程序 预 留 $1 以 实现 伪 指 令 。 例 如 ， 在 地 址 计算 中 ， 硬 件 只 允许 16 位 的 偏 移 量 ， 但 汇编 
程序 允许 32 位 的 偏 移 量 ， 其 做 法 是 在 原 指令 上 插入 额外 的 指令 ， 利 用 $1 形成 大 于 16 位 的 偏 移 量 。 
lee 使 用 了 一 些 伪 指令 ， 但 为 了 简化 直接 产生 二 进 制 目标 代码 的 过 程 ， 它 也 舍弃 了 许多 伪 指 令 。 

按照 约定 ， 返 回 值 存 人 寄存 器 $2 ~ $3 和 $f0 ~ $f2, {Alec 只 用 到 每 个 寄存 器 的 前 半 部 分 字 
节 ， 后 半 部 分 专门 存储 Fortran 程序 语言 的 复数 算术 类 型 。 虽 然 C 语言 没有 复数 算术 类 型 ， 但 C 
编译 器 为 了 能 与 Fortran 代码 进行 互 操作 ， 也 遵循 这 种 约定 。 

progend 在 MIPS 目标 机 器 中 没有 作用 。progbeg 按 表 16-2 的 约定 初始 化 寄存 器 分 配器 的 数据 
结构 。 


(MIPS functions 337 ) = 339 335 
static void progbeg(argc, argv) int argc; char *argv[ 了 ; { 
int i; 
(shared progbeg 290) 


print(" .set reorder\n"); 

(parse -G flag 358) 

(initialize MIPS register structures 338 ) 
} 


progbeg 首先 产生 一 个 “无 害 ” 的 指示 符 一 一 MIPS 汇编 程序 拒绝 空 输入 ， 接 着 分 析 与 目标 机 器 相 
关 的 标记 ， 然 后 初始 化 寄存 器 符号 组 成 的 向 量 。 


(MIPS data 337)= 338 335 
static Symbol ireg[32], freg2[32], d6; 
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数组 ireg 的 每 个 元 素 表 示 一 个 整 型 寄存 器 ， 数 组 freg2 的 每 个 元 素 表示 由 相 邻 序 点 寄存 器 组 成 的 
寄存 器 对 。d6 表示 寄存 器 对 $6-$7。 
在 MIPS 结构 的 机 器 中 ， 每 种 类 型 实际 上 只 有 31 个 寄存 器 对 ， 但 数组 声明 却 提供 了 32 +, 
这 样 可 以 保证 askreg 中 的 循环 边界 的 正确 性 。 
(initialize MIPS register structures 338 ) 三 338 337 
for (i = 0; i < 31; 2) 
freg2[i] = mkreg("%d", i, 3, FREG); 
for (i = 0; i < 32; i++) 
ireg[i] = mkreg("Xd", 7, 1, IREG); 
ireg[29]->x.name = "sp"; 
d6 = mkreg("6", 6, 3, IREG); 


mkreg 为 每 个 寄存 器 赋予 一 个 数字 作为 名 字 。 为 了 便于 记忆 ， 栈 指针 $29 重 命名 为 $sp。 汇 编程 


序 没 有 使 用 寄存 器 $gp， 和 否则 还 要 对 $28 重 命名 。 
rmap 存储 通配符 ， 这 些 通配符 用 于 标识 各 种 类 型 的 默认 寄存 器 类 ; 


(initialize MIPS register structures 338)+= 338 338 337 
rmap[C] = rmap[{S] = rmap[P] = rmap[8] = rmap(U] = rmap[I] = 
mkwi Idcard(ireg); 


rmap[F] = rmap[D] = mkwildcard(freg2); 
tmask 标识 临时 寄存 器 ，vmask 标识 寄存 器 变量 : 


(mips.c macros) = 346 
#define INTTMP 0x0300ff00 
#define INTVAR 0x40ff0000 
#define FLTTMP Ox000fOFfO 
#define FLTVAR Oxfff00000 


(initialize MIPS register structures 338 ) += 338 338 337 
tmask[IREG] = INTTMP; tmask[FREG] = FLTTMP; 16 
vmask[IREG] = INTVAR; vmask[FREG] = FLTVAR; 
ARGB 和 ASGNB 复制 数据 块 时 ， 除 了 需要 一 个 源 地 址 寄存 器 和 一 个 目的 地 址 寄存 器 外 ， 还 需要 
3 个 临时 寄存 器 。$3 专门 留 做 临时 寄存 器 ， 我 们 还 需要 另外 找 两 个 ， 而 且 这 5 个 寄存 器 必须 互 不 
相同 。 一 种 解决 方法 是 将 源 寄存 器 映射 到 一 个 寄存 器 三 元 组 : $8 用 作 源 寄存 器 ，$9 和 $10 用 作 
临时 寄存 器 。tmpregs 为 blkcopy 列 出 了 3 个 临时 寄存 器 : $3, $9 和 $10。 


(MIPS data337)+ 三 337 338 335 
static int tmpregs[] = {3, 9, 10}; 


blkreg 是 源 寄存 器 三 元 组 : 


(MIPS dafa337 ) 十 三 38 358 335 
static Symbol blkreg; 


(initialize MIPS register structures 338)+= $38 337 
bTkreg = mkreg("8", 8, 7, IREG); 


mkreg 的 第 三 个 参数 是 由 3 个 1 组 成 的 寄存 器 掩 码 ， 标 识 寄 存 器 $8、$9 和 $10。lcc 以 后 产生 的 
代码 就 用 $8 作为 源 寄存 器 ，$9 和 $10 用 作 临 时 寄存 器 。 
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target 调用 setreg 来 标记 来 需要 使 用 特殊 寄存 器 的 节点 ， 调 用 rtarget 以 标记 需要 子 节点 在 特 
定 寄存 器 中 的 节点 。 


(MIPS functions 337 ) 十 三 337 339 335 
static void target(p) Node p; { 
switch (p->op) { 
(MIPS target 340) 
} 
} 
如 果 某 条 指令 改写 寄存 器 ，clobber 便 调用 spill 预先 将 这 些 寄 存 器 的 值 保存 起 来 ， 处 理 完 当 前 操 
作 后 再 恢复 原 值 。 
(MIPS functions 337) += 339 346 335 
static void clobber(p) Node p; { 


switch (p->op) { 
(MIPS clobber 346) 
} 


+ 


上 述 target 和 clobber 的 分 支 情况 及 相关 指令 将 在 下 一 节 介 绍 。 


16.2 ”指令 的 选取 
K 16-3 概括 了 MIPS 代码 生成 器 的 lburg 规范 中 的 非 终 结 符 ， 给 出 了 面向 MIPS 的 lee 树 文 
法 的 组 织 概貌 。 
表 16-3 MIPS 的 非 终结 符 


名 字 匹配 对 象 
acon 地 址 常量 
addr 针对 内 存 读 写 指 令 的 地 址 计算 
ar 寄存 器 中 的 标号 和 地 址 
con 常量 
re 寄存 器 和 常量 
re5 寄存 器 和 常量 ( 取 5 位 ) 
reg 计算 结果 在 寄存 器 中 的 运算 
stmt 副作用 产生 的 运算 


一 些 汇编 程序 指令 通过 后 级 来 标识 指令 所 操作 的 数据 类 型 。 后 级 s 和 d 分别 表示 单 精 度 浮 点 
指令 和 双 精 度 浮 点 指令 ，b、h 和 w 分 别 表示 8 位 、16 位 和 32 位 整 型 指令 。 可 选 后 级 u 表示 无 符 
号 数 指令 ， 如 果 没 有 uu， 汇编 指令 在 默认 情况 下 为 有 符号 数 指令 。 

常量 和 标识 符 在 汇编 程序 中 直接 表示 : 


(MIPS rules 339)= 339 . 335 
acon: con "%0" 
acon: ADDRGP "%a" 


访 存 指令 需要 使 用 硬件 的 地 址 计算 单元 ， 由 硬件 对 指令 域 与 整 型 寄存 器 的 值 求 和 。 与 访 存 指令 对 
应 的 汇编 程序 的 语法 为 常量 后 面 跟着 用 圆 括号 括 住 的 寄存 器 : 
(MIPS rules 339) += 339 340 335 
addr: ADDI(reg,acon) "%1($%0)" 


addr: ADDU(reg,acon) "%1($%0)“ 
addr: ADDP(reg,acon) "%1($%0)" 
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地 址 计算 过 程 中 有 时 用 到 常量 0 或 寄存 器 $0 作为 加 数 ， 我 们 称 之 为 退化 求 和 ， 这 种 运算 主 
要 提供 绝对 地 址 和 间接 地 址 。 此 时 ， 常 量 0 或 寄存 器 $0 可 能 被 忽略 : 
(MIPS rules 339) += 339 340 335 
addr: acon "%0" 
addr: reg “($0)” 
前 面 已 经 提 到 ,硬件 只 能 实现 16 位 偏 移 量 的 地 址 计算 ， 但 是 汇编 程序 能 够 利用 寄存 器 $1 
和 额外 的 指令 综合 实现 更 大 的 偏 移 量 计算 ， 所 以 lee 可 以 不 受 硬件 限制 ， 至 少 在 MIPS 机 器 上 是 
这 样 。 
ADDRFP 和 ADDRLP 给 栈 指针 加 上 一 个 常量 偏 移 量 : 
(MIPS rules 339) += 340 340 335 
addr: ADDRFP "%a+%F($sp)" 
addr: ADDRLP “%a+%F($sp)" 
%a 产生 p->syms[0]->x.name, %F FÆ WHAK MEF RITET, Ssp WA Wih, F 
是 %F($sp) 重 设 为 $sp 的 初始 值 。 局 部 变量 的 偏 移 量 为 负 ， 其 地 址 小 于 $sp 的 初始 值 。 形 参 的 偏 
移 量 为 正 ， 其 地 址 大 于 $sp 的 初始 值 ， 在 调用 程序 的 帧 中 。16.3 节 对 此 有 详细 阐述 。 
addr 说 明了 14.10 节 中 提 到 的 一 些 指导 原则 ， 其 中 包括 寻 址 模式 的 规则 、 退 化 和 规则 、 等 价 
操作 符 的 复制 规则 ， 以 及 普通 运算 的 特殊 操作 的 实现 规则 。 为 了 简单 起 见 ， 规 范 并 未 在 上 述 每 个 
规则 中 都 使 用 addr。 
伪 指 令 la 执行 地 址 运算 ,并 把 计算 后 的 结果 存 人 寄存 器 。 例 如 ， 指 令 la $2,x($4)， 表 示 寄 存 
ar $4 的 内 容 与 地 址 x 相 加 ， 结 果 存 人 $2. 
(MIPS rules 339)+= 340 340 335 
reg: addr "Ja $%c,%0\n" 1 
%c 产生 p->syms[RX]->x.name. con 表示 addr, “4 lec 需要 读 取 常 量 放 人 寄存 器 时 ， 用 到 指令 las 
因为 $0 总 为 0， 我 们 无 须 用 指令 计算 0 值 : 
(MIPS rules 339)+= 340 341 335 
reg: CNSTC "# reg\n” range(a, 0, 0) 
reg: CNSTS “# reg\n" range(a, 0, 0) 
reg: CNSTI "# reg\n" range(a, 0, 0) 
reg: CNSTU “# reg\n" range(a, 0, 0) 
reg: CNSTP “# reg\n" range(a, 0, 0) 
我 们 知道 ， 估 算 代 价 表达 式 时 ，a 代表 已 被 标记 的 节点 。 这 里 a 表示 常量 值 ， 我 们 需要 测试 
a 是 否 为 0， 如 果 为 0，target 为 这 些 节点 返回 $0: 
(MIPS target 340)= 339 
case CNSTC: case CNSTI: case CNSTS: case CNSTU: case CNSTP: 
if Crange(p, 0, 0) == 0) { 


setreg(p, ireg[0]); 
p->x.registered = 1; 


break; 


分 配 $0 是 没有 意义 的 ， 所 以 target 只 是 标记 节点 以 防 为 其 分 配 寄存 器 。 
指令 1 和 s 分 别 表 示 读 取 存 储 器 和 存 和 人 存储器。 这 些 指 令 包 括 类 型 后 级 、 整 型 寄存 器 和 
addr。 例 如 ， 指 令 sw $4, x 表示 把 $4 中 的 32 位 整数 存 人 存储 单元 x。sb 和 sh 对 寄存 器 的 低 8 


MIPS R3000 代码 的 从 成 341 


位 和 低 16 2 tL EA Ab. lb, Ih AI lw Æ sb, sh 和 sw AYRE, 表示 从 存储 器 中 读 取 8 位 、 
16 位 和 32 位 的 值 : 


(MIPS rules 339) += 340 341 335 


stmt: ASGNC(addr,reg) "sb $%1,%0\n" 1 
stmt: ASGNS(addr,reg) “sh $%1,%0\n" 1 
stmt: ASGNI(addr,reg) "sw $%1,%0\n" 1 
stmt: ASCNP(addr,reg) "sw $%1,%0\n" 1 
reg: INDIRC(addr) "lb $%c,%0\n" 1 
reg: INDIRS(addr) "Th $%c,%0\n" 1 
reg: INDIRICaddr) “Tw $%c,%0\n" 1 
reg: INDIRP(addr) "Iw $%c,%0\n" 1 


Ib Al Ih 用 符号 位 填充 寄存 器 的 高 位 部 分 ， 它 们 实现 了 类 型 转换 CVCI 和 CVSI. Ibu 和 lhu 用 有 零 值 
填充 寄存 器 的 高 位 部 分 ， 它 们 实现 了 类 型 转换 CVCU 和 CVSU: 
(MIPS rules 339) += 341 341 335 

reg: CVCICINDIRC(addr)) "lb $%c,%0\n" 1 

reg: CVSICINDIRS(addr)) “Th $%c,%0\n" 1 

reg: CVCUCINDIRC(addr)) “Ibu $%c,%0\n" 1 

reg: CVSUCINDIRS(addr)) “Thu $%c,%0\n" 1 
这 些 规则 同时 也 说 明了 14.10 节 的 另 一 个 指导 原则 : 若 指令 需要 计算 多 个 中 间 语 言 的 操作 码 ， 则 
写 一 条 能 够 匹配 多 个 节点 的 规则 。 
1. Als. 分 别 表 示 读 取 浮 点 值 和 存 人 浮 点 值 。 所 有 的 浮 点 指令 都 以 点 号 分 隔 操 作 码 与 类 型 


后 级 : 
(MIPS rules 339)+= it 341 335 
reg: INDIRD(addr) "ld $f%c,¥0\n" 1 
reg: INDIRF(addr) "1.s $f%c,%0\n" 1 
stmt: ASGND(addr,reg) “s.d $f%1,%0\n" 1 
stmt: ASGNF(addr,reg) "s.s $f%1,%0\n" 1 


整数 乘法 指令 需要 两 个 源 寄存 器 ， 计 算 结 果 放 和 人 一 个 目的 寄存 器 。 左 右 操 作 数 跟 在 目的 寄存 
器 之 后 。 例 如 ，div$4，$5，$6 表示 $5 除 以 $6， 结果 存 人 $4。 


(MIPS rules 339)+= 341 341 335 
reg: DIViCreg,reg) "div $%c,$%0,$%1\n" 
reg: DIVU(reg,reg) "divu $%c,$X%0,$%1\n" 
reg: MODI(reg,reg) “rem $%c,$%0,$%1\n" 
reg: MODU(reg,reg) “remu $%c,$%0,$%1\n" 
reg: MULI(reg,reg) “mul $%c,$%0,$%1\n" 
reg: MULU(reg,reg) “mul $%c,$%0,$%1\n" 


其 余 的 三 元 整 型 指令 都 具有 立即 数 形式 ， 这 种 形式 的 右 操作 数 通常 是 一 个 常量 指令 域 : 


H op p j Re 


(MIPS rules 339)+= 341 342 335 
rc: con "%0" 
rc: reg "$%0" 


reg: ADDI(reg,rc) "addu $%c,$%0,%1\n”" 
reg: ADDP(reg,rc) “addu $%c,$%0,%1\n" 
reg: ADDU(reg,rc) "addu $%c,$%0,%1\n" 
reg: BANDU(reg,rc) “and $%c,$X0,X%1\n" 


Bee i 
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reg: BORUCreg,rc) 
reg: BXORU(reg,rc) 
reg: SUBI(reg,rc) 
reg: SUBP(reg,rc) 
reg: SUBU(reg,rc) 


"or $%c,$%0,%1\n" 

"xor $%c,$%0,%1\n" 
"subu $%c,$%0,%1\n" 
“subu $%c,$%0,%1\n" 
“subu $%c,$%0,%1\n" 


在 立即 数 移 位 指令 中 ,立即 数 的 取 值 必须 在 0 至 31 之 间 : 


ee 


(MIPS rules 339) += 341 342 335 
rc5: CNSTI "%a" range(a,0, 31) 
rc5: reg "$%0" 
reg: LSHI(reg,rc5) "sll $%c,$%0,%1\n" 1 
reg: LSHUCreg,rc5) "sll $%c,$%0,%1\n" 1 
reg: RSHI(reg,rc5) “sra $%c,$%0,%1\n" 1 
reg: RSHU(reg,rc5) “srl $%c,$%0,%1\n" 1 

对 于 一 元 操作 指令 ， 操 作 数 只 能 是 寄存 器 : 

(MIPS rules 339)+= 342 342 335 
reg: BCOMU(reg) “not $%c,$%0\n" 1 
reg: NEGI(reg) “negu $%c,$%0\n" 1 
reg: LOADC(reg) "move $%c,$%0\n" move(a) 
reg: LOADS(reg) "move $%c,$X0\n" move(a) 
reg: LOADI(reg) "move $%c,$%0\n" move(a) 
reg: LOADP(reg) “move $%c,$%0\n" move(a) 
reg: LOADUCreg) “move $%c,$%O0\n" move(a) 


前 面 提 到 ，move 函数 返回 值 为 1， 同 时 把 节点 标记 为 “寄存 器 -寄存 器 ”的 移动 ， 使 节点 可 
用 于 某 些 优化 。 
浮 点 指令 也 只 有 寄存 器 形式 : 


(MIPS rules 339) += 342 342 335 

reg: ADDD(reg,reg) “add.d $f%c,$f%0,$f%1\n" 1 

reg: ADDF(reg,reg) "add.s $f%c,$f%O,$f*¥1\n" 1 

reg: DIVD(reg,reg) "div.d $f%c,$f*%O,$f¥1\n" 1 

reg: DIVF(reg,reg) "div.s $f%c,$f*O,$f¥1\n" 1 

reg: MULD(reg,reg) “mul.d $f%c,$f*%O,$f¥1\n" 1 

reg: MULF(reg,reg) "mul.s $fxc, $f%0, Sfx%i\n” 1 

reg: SUBD(reg,reg) “sub.d $fxc, $f%0,$f%1\n” 1 

reg: SUBF(reg,reg) “sub.s $fxc, $f%0, Sf%i\n” 1 

reg: LOADD(reg) "mov.d $f%c,$f%0\n" move(a) 
reg: LOADF(reg) "mov.s $f%c,$f%0\n" move (a) 
reg: NEGDC(reg) “neg.d $f%c,$f%0\n" 1 

reg: NEGF(reg) "neg.s $f%c,$f%0\n" 


很 少 有 指令 专门 用 于 类 型 转换 。CVCI 和 CVS 通过 先 左 移 再 右 移 实 现 符号 扩展 。CVCU 和 CVSU 
通过 对 寄存 器 的 高 位 部 分 做 逻辑 与 来 实现 零 扩 展 : 


(MIPS rules 339) += 342 335. 
reg: CVCI(reg) “sll $%c,$%0,24; sra $%c,$%c,24\n" 2 
reg: CVSI(reg) "sll $%c,$%0,16; sra $%c,$%c,16\n" 2 
reg: CVCU(reg) “and $%c,$%0,0xff\n" aY 
reg: CVSU(reg) “and $%c,$%0,OxfffF\n" 1 
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这 些 规则 说 明了 14.10 节 中 的 另 一 个 指导 原则 : 当 没 有 指令 能 够 直接 实现 一 个 操作 时 ， 则 写 
一 条 规则 ， 使 用 若干 指令 完成 该 操作 。 

剩 下 的 有 关 整 型 和 指针 类 型 的 转换 ， 指 令 不 执行 操作 。 由 于 前 端 建立 的 树 不 会 用 到 缩小 后 的 
值 的 高 位 ， 缩 小 类 型 的 转换 操作 (比如 CVIC) 不 必 清 除 寄存 器 的 高 位 。 如 果 对 现存 寄存 器 进行 
缩小 类 型 的 转换 操作 ， 那 么 共享 的 规则 和 下 面 的 规则 将 不 产生 代码 : 


(MIPS rules 339) += 442 343 335 


reg: CVIC(reg) "%0" notarget(a) 
reg: CVIS(reg) "%0" notarget(a) 
reg: CVUC(reg) "%0" notarget(a) 
reg: CVUS(reg) “%0” notarget(a) 


如 果 指 令 已 定位 某 个 特定 寄存 器 ,， 则 一 些 开 销 大 的 规则 会 生成 “寄存 器 = 寄存 器 ”的 复制 : 


(MIPS rules 339) += 343 343 335 
reg: CVIC(reg) “move $%c,$%0\n" move(a) 
reg: CVIS(reg) “move $%c,$%0\n" move(a) 
reg: CVIU(reg) "move $%c,$%0\n" move(a) 
reg: CVPU(reg) "move $%c,$%0\n" move(a) 
reg: CVUC(reg) "move $%c,$X0\n" move(a) 
reg: CVUI(reg) "move $%c,$%0\n" move(a) 
reg: CVUP(reg) “move $%c,$%0\n" move(a) 
reg: CVUS(reg) “move $%c,$%0\n" move(a) 


cvtd.s 将 浮 点 数 转换 成 双 精 度数 ，cvts.d 执行 相反 的 操作 : 


(MIPS rules 339) += 343 343 335 
reg: CVDF(reg) "cvt.s.d $f%c,$f*O\n" 1 
reg: CVFD(reg) “cvt.d.s $f%c,$f*0\n" 1 
evt.d.w 将 整数 转换 成 浮 点 数 ， 这 里 的 整数 必须 存在 于 浮 点 寄存 器 中 ， 故 CVID 首先 执行 mtcl， 把 
一 个 整数 值 从 整数 单元 复制 到 浮 点 单元 : 
(MIPS rules 339)+= 343 343 335 
reg: CVID(reg) “mtcl $%0,$f%c; cvt.d.w $f%c,S$f%c\n" 2 
CVID 设置 了 目标 寄存 器 的 值 两 次 : 第 一 次 设置 为 未 转换 的 整数 值 ， 第 二 次 设置 为 等 价 的 双 精 度 
数值 。 参 见 练习 16.6。 
trunc.w.d 截取 双 精 度数 ， 把 整数 结果 放 入 浮 点 寄存 器 ， 所 以 trunc.w.d 后 面 有 一 个 mfe, € 
把 浮 点 单元 中 的 值 复制 到 整数 单元 ， 该 整数 单元 已 由 CVDI 的 使 用 者 事先 指定 : 
(MIPS rules 339) += 343 343 335 
reg: CVDI(reg) “trunc.w.d $f2,$f%0,$%c; mfcl $%c,$f2\n" 2 
trunc.w.d 需要 一 个 临时 的 浮 点 寄存 器 保存 转换 后 的 值 ， 这 里 使 用 $ 包 。 调 用 约定 保留 $f2 作为 第 
二 个 返回 寄存 器 ， 所 以 lec 不 分 配 $f2 另 做 他 用 。 i 
标号 定义 时 后 跟 一 个 冒号 : 


(MIPS rules 339 ) 十 三 343 344 335 
stmt: LABELV “%a:\n" 


b 指令 无 条 件 跳 转 至 固定 地 址 ，j 指令 无 条 件 跳 转 至 寄存 器 指定 的 地 址 : 
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(MIPS rules 339) += 343 344 335 
stmt: JUMPV(acon) “b %0\n" 1 
stmt: JUMPV(reg) "j $%0\n" 1 


用 分 支 转 移 表 实现 的 switch 语句 需要 用 到 j 指令 。 其 他 无 条 件 分 支 转移 都 使 用 b 指令 。 
整数 条 件 分 支 指令 首先 比较 两 个 寄存 器 值 ， 如 果 所 示 条 件 满足 则 进行 转移 : 
(MIPS rules 339)+= ` 344 344 335 

stmt: EQI(reg,reg) "beq $%0,$%1,%a\n" 
stmt: GEI(reg,reg) “bge $%0,$%1,%a\n" 
stmt: GEU(reg,reg) “bgeu $%0,$%1,%a\n" 
stmt: CTICreg,reg) "bgt $%0,$%1,%a\n" 
stmt: GTU(reg,reg) “bgtu $%0,$%1,%a\n" 
stmt: LEI(reg,reg) “ble $%0,$%1,%a\n" 
` stmt: LEUCreg,reg) “bleu $%0,$%1,%a\n" 
stmt: LTI(reg,reg) "bit $%0,$%1,%a\n" 
stmt: LTUCreg,reg) "bltu $%0,$%1,%a\n" 
stmt: NEI(reg,reg) “bne $%0,$%1,%a\n" 

硬件 不 能 直接 实现 所 有 这 些 指 令 ， 但 汇编 程序 进行 了 补充 。 例 如 ， 有 关 GE、GT、LE 和 LT 的 

硬件 指令 都 假定 第 二 个 比较 数 为 0， 但 是 必要 时 汇编 程序 可 以 计算 两 个 比较 操作 数 的 差 值 并 存 人 

$1， 再 由 硬件 实现 $1 与 0 的 比较 ， 这 样 综合 伪 指令 实现 上 述 分 支 指令 。 另 外 的 问题 是 ， 只 有 j 

指令 接受 32 位 的 地 址 ， 而 上 述 伪 指 令 打 破 了 硬件 地 址 计算 的 限制 ， 汇 编 出 任意 长 度 的 地 址 。 因 

此 ， 当 Icc 使 用 伪 指 令 时 ， 它 并 不 知道 汇编 程序 产生 什么 样 的 实际 指令 ， 所 以 上 述 代价 估算 只 是 

近似 的 ， 但 无 论 如 何 ， 对 于 这 些 中 间 语 言 操 作 ， 只 有 一 种 方法 生成 代码 ， 因 而 估算 的 偏差 不 会 对 

所 产生 代码 的 质量 造成 影响 。 

浮 点 条 件 分 支 对 一 个 条 件 标记 进行 测试 ， 该 条 件 标记 由 另 一 条 独立 的 比较 指令 设 定 。 例 如 ， 

当 $f0 中 的 双 精 度数 小 于 $f 中 的 双 精 度数 时 ， 指 令 c.lt.d SO, $2 设置 条 件 标记 ， 并 执行 bclt 分 

支 。 如 果 标 记 为 0， 则 执行 bclf 分 支 。 

(MIPS rules 339) += 344 344 335 
stmt: EQD(reg,reg) "c.eq.d $f%0, $f%1; bclt %a\n" 
stmt: EQF(reg,reg) "c.eq.s $f%0,$f%1; bclt %a\n" 


2 
2 
stmt: LED(reg,reg) “c.le.d $f%0,$f%1; bclt %a\n" 2 
stmt; LEF(reg,reg) “c.le.s $f%0,$f%1; bcit %a\n" 2 
2 
2 
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stmt: LTD(reg,reg) “c.1t.d $f%0,$f%1; bclt Xa\n" 
stmt: LTF(reg,reg) “c.1t.s $f%0,$f%1; bclt %a\n" 


浮 点 比较 指令 只 实现 了 小 于 、 小 于 或 等 于 以 及 等 于 3 种 比较 计算 。lce 通过 关系 意义 转化 ， 
再 执行 bclf。 就 可 以 实现 其 他 的 比较 运算 : 


(MIPS rules 339)+= 344 345 335 


stmt: GED(reg,reg) “c.1lt.d $f¥O,$f%1; bcif %a\n" 2 
stmt: GEF(reg,reg) “c.1t.s $f%O,$f%1; bclf Xa\n" 2 
stmt: GID(reg,reg) "“c.le.d $f%*0,$f%1; bclf %a\n” 2 
stmt: GTF(reg,reg) "c.le.s $f¥0,$f%1; bclf %a\n" 2 
stmt: NED(reg,reg) "c.eq.d $f%*0,$f%1; bclf %a\n" 2 
stmt: NEF(reg,reg) "“c.eq.s $f%*0,$f%1; bclf %a\n" 2 


例如 ，lec 不 能 使 用 : 
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c.gt.d $f0,$f2 
belt L 


而 是 用 下 面 的 指令 代替 它 : 


c.le.d $f0,$f2 
bcif L 


jal 指令 将 程序 计数 器 保存 在 $31 中 ， 并 跳 转 至 常量 指令 域 或 寄存 器 所 示 的 地 址 处 。 


(MIPS rules 339) += 344 345 335 
ar:  ADDRGP "%a" 


reg: CALLD(ar) “jal %0\n” 

reg: CALLF(ar) “jal %0\n" 

reg: CALLI(ar) “jal %0\n" 

stmt: CALLV(ar) “jal %0\n" 
CALLV 不 产生 结果 ， 因 而 匹配 stmt 而 不 是 reg。 大 多 数 调用 都 跳 转 到 某 个 标号 继续 执行 ， 但 像 
(*p)( ) 这 样 的 间接 调用 需要 使 用 寄存 器 形式 : 


(MIPS rules 339) += 345 345 335 
ar: reg "$%O" 


一 些 设备 驱动 程序 通常 跳 到 固定 数值 的 地 址 。jal 要 求 地址 必须 是 28 位 的 : 


(MIPS rules 339)+= 345 345 335 
ar: CNSTP “%a“ range(a, 0, Ox0fffffff) 
如 果 常 量 不 是 28 位 ，lcc 只 有 采用 其 他 代价 更 高 的 规则 ， 先 将 任意 一 个 32 位 的 常量 载 人 寄存 器 ， 
然后 通过 该 寄存 器 实现 间接 跳 转 。 另 外 ，MIPS 的 汇编 程序 完成 了 大 多 数 的 范围 检查 ， 但 有 些 版 
本 的 汇编 程序 把 边界 检查 留 给 了 编译 器 来 完成 。 
编译 前 端 和 例 程 function 与 target 协同 将 返回 值 存 人 返回 寄存 器 ， 并 把 地 址 存 人 程序 计数 器 ， 
所 以 RET 节点 不 必 生 成 任何 代码 : 
(MIPS rules 339) += 345 346 335 
stmt: RETD(reg) "# ret\n" 1 


stmt: RETF(reg) "# ret\n" 1 
stmt: RETI(reg) “# ret\n" 1 


CALLD I CALLF 产生 $f0, CALLI 产生 $2。 每 个 RET 的 子 节点 执行 计算 ， 并 将 计算 结果 
存 人 相应 的 寄存 器 。 


BHR 


(MIPS target 340) += 340 347 339 
case CALLD: case CALLF: setreg(p, freg2[0]); break; 
case CALLI: setreg(p, ireg[2]); break; 
case RETD: case RETF: rtarget(p, 0, freg2[0]); break; 
case RETI: rtarget(p, 0, ireg[2]); break; 


setreg 为 正在 操作 的 节点 设置 结果 寄存 器 ，rtarget 为 该 节点 的 子 节 点 设置 结果 寄存 器 。 但 如 果 在 
子 节点 上 直接 调用 setreg， 则 很 可 能 会 破坏 一 些 值 ， 所 以 还 要 使 用 rtarget。 详 细 描 述 参 见 有 关 
setreg 的 资料 。 

临时 和 返回 寄存 器 不 能 跨 过 程 调 用 来 保留 ， 所 以 除了 调用 者 本 身 使 用 的 结果 寄存 器 外 ， 其 他 
任何 活动 寄存 器 必须 溢出 和 重 取 。 
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(mips.c macros) += 338 
#define INTRET 0x00000004 
#define FLTRET 0x00000003 


(MIPS clobber 346 )= 339 

case CALLD: case CALLF: 
spi11CINTIMP | INTRET, IREG, p); 
spil1CFLTIMP, ` FREG, p); 
break; 

case CALLI: 
spil1CINTIMP, IREG, p); 
spi11CFLTTMP | FLTRET, FREG, p); 
break; 

case CALLV: 
spil1CINTIMP | INTRET, IREG, p); 
spi11CFLTTMP | FLTRET, FREG, p); 
break; 


浮 点 值 存 人 双 精 度 寄 存 器 $f0 中 返回 ， 其 他 类 型 的 值 存 人 $2 中 返回 。target 和 clobber 配合 使 用 。 
例如 CALLI, CE target 中 生成 寄存 器 $2， 函 数 调用 前 ，clobber 先 调用 spill, (RAF ATA Fhe h 
调用 程序 保存 的 寄存 器 ， 函 数 调用 完成 后 再 恢复 这 些 寄 存 器 的 原 值 。 

参数 传递 的 规则 需要 target 和 emit2 的 协作 完成 : 


(MIPS rules 339) += 345 348 335 


stmt: ARGD(reg) "“# arg\n" 1 
stmt: ARGF(reg) “# arg\n" 1 
stmt: ARGI(reg) “# arg\n" 1 
stmt: ARGP(reg) “# arg\n" 1 
(MIPS functions 337)+= 339 346 335 


static void emit2(p) Node p; { 
int dst, n, src, ty; 
static int ty0; 
Symbol q; 


switch (p->op) { 
(MIPS emi t2 348) 
} 

} 


一 般 情 况 下 ， 根 据 MIPS 的 调用 约定 ， 将 参数 的 头 4 个 字 传 人 寄存 器 34-$7 (包括 确保 对 齐 
的 间隙 字 节 )。 但 是 ， 如 果 第 一 个 参数 是 浮 点 型 或 双 精 度 型 ， 则 通过 $f12 传递 ; 如 果 第 二 个 参数 
也 是 一 个 浮 点 型 或 双 精 度 型 ， 则 通过 $f14 传递 。argreg 实现 了 上 述 规则 : 


(MIPS functions 337) += 346 347 335 
static Symbol argreg(argno, offset, ty, ty0) 
int argno, offset, ty, ty0; { 
if (offset > 12) 
return NULL; 
else if (argno == 0 & (ty == F || ty == D)) 
return freg2[12]; 
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else if (argno == 1 && (ty == F || ty == D) 
&& (ty0 == F || ty0 = D)) 
return freg2[14] ; 
else if (argno == 1 & ty == D) 
return d6; /* Pair! */ 
else 
return ireg[(offset/4) + 4]; 
} 


argno 表示 参数 个 数 。offset 和 ty 分 别 表示 参数 的 偏 移 量 和 类 型 。ty0 表示 第 一 个 参数 的 类 型 ， 它 
影响 第 二 个 参数 的 存储 位 置 。 如 果 参 数 通 过 某 个 寄存 器 传递 ， 那么 argreg 返回 该 寄存 器 ， 和 否则 返 
回 空 。 

gen 调用 doarg 来 计算 argreg 需要 的 argno 和 offset: 


(MIPS functions 337 ) += 346 349 335 
static void doarg(p) Node p; { 
static int argno; 
int size; 


if (argoffset == 0) 
argno = 0; 
p->xX.argno = argno++; 
size = p->syms[1]->u.c.v.i < 4 ? 4 : p->syms[1]->u.c.v.i; 
p->syms(2] = intconst(mkactual (size, 
p->syms[O]->u.c.v.i)); 
} 


docall 在 每 个 CALL 开始 时 清除 argoffset， 所 以 若 doarg 遇 到 argoffset 等 于 0， 它 将 重 设 静态 参数 
计数 器 。mkactual 使 用 参数 的 大 小 和 对 齐 字 节 数 (必要 时 对 4 进行 伟人 计算 ， 将 较 小 参数 加 宽 )， 
并 返回 参数 的 偏 移 量 。 

target 利用 argreg 和 rtarget 计算 ARG 的 子 节 点 (如果 有 子 节点 )， 将 其 存 和 参数 寄存 器 : 


(MIPS target 340)+= 345 348 339 
case ARGD: case ARGF: case ARGI: case ARGP: { 
static int ty0; 
int ty = optype(p->op) ; 
Symbol q; 


q = argreg(p->x.argno, p->syms[(2]->u.c.v.i, ty, ty0); 
if (p->x.argno == 0) 
ty0 = ty; 
if (q & 
'C(ty == F || ty == D) && q->x.regnode->set == IREG)) 
rtarget(p, 0, q); 
break; 


} 
该 程序 段 也 记录 第 一 个 参数 的 类 型 ， 有 助 于 为 后 面 的 参数 选择 寄存 器 。 若 参数 是 浮 点 数 却 通过 整 
数 寄存 器 传递 ， 则 程序 不 执行 rtarget。lcc 规定 浮 点 操作 码 只 产生 浮 点 寄存 器 ， 所 以 浮 点 数 存 人 整 
数 寄存 器 之 前 必须 先 做 整 型 转换 。emit2 执行 这 一 过 程 并 处 理 各 种 访 存 的 参数 : 


348 # 16% 


(MIPS emit2 348 )= 348 346 
case ARGD: case ARGF: case ARGI: case ARGP: 
ty = optype(p->op) ; 
if (p->x.argno == 0) 
tyO = ty; 
q = argreg(p->x.argno, p->syms[2]->u.c.v.i, ty, ty0); 
src = getregnum(p->x.kids[0]); 
if (q == NULL && ty == F) 
print("s.s $f%d,%d($sp)\n", src, p->syms[2]->u.c.v.i); 
else if (q == NULL && ty == D) 
print("s.d $f%¥d,%d($sp)\n", src, p->syms[2]->u.c.v.i); 
else if (q == NULL) 
print("sw $%d,%d($sp)\n", src, p->syms[2}~>u.c.v.i); 
else if (ty == F & q->x.regnode->set == IREG) 
print("mfcl $%d,$fX¥d\n", q->x.regnode->number, src); 
else if (ty == D && q->x.regnode->set == IREG) 
print("mfcl.d $%d,$f¥d\n", q->x.regnode->number, src); 
break; 


如 果 argreg 返回 空 指针 ， 则 调用 程序 通过 存储 器 传递 参数 。emit2 使 用 doarg 计算 的 偏 移 量 存储 
参数 值 。 最 后 两 个 让 条 件 语 句 生 成 的 指令 实现 了 在 整数 寄存 器 中 传递 浮 点 参数 。mfcl xy 表示 从 
浮 点 寄存 器 y 中 复制 一 个 单 精度 值 到 整数 寄存 器 x。mfel.d 表示 对 双 精 度 值 的 类 似 操 作 ， 操 作 目 
标 是 一 个 寄存 器 对 。 
emit2 与 target 合作 实现 块 的 复制 : 
(MIPS rules 339) += 346 335 
stmt: ARGBCINDIRB(reg)) “# argb XONn” 1 
stmt: ASGNB(reg,INDIRB(reg)) “# asgnb %0 %l\n” 1 
下 面 是 emit2 处 理 ASGNB 分 支 的 情况 ， 该 分 支 首 先 设置 全 局 变量 记录 源 块 和 目的 块 的 对 齐 
字 节 数 ， 然 后 调用 blkcopy 完成 剩 下 的 工作 : 
(MIPS emi t2348 )+= 348 349 346 
case ASGNB: 
dalign = salign = p->syms[1]->u.c.v.i; 
blkcopy(getregnum(p->x.kids[0]), 0, 
getregnum(p->x.kids[1]), 0, 


p->syms[O]->u.c.v.i, tmpregs); 
break; 


图 13-4 的 调用 序列 从 ASGNB 分 支 开 始 。tmpregs 中 存 有 3 个 临时 寄存 器 的 编号 ， 它 们 组 成 了 一 
个 寄存 器 三 元 组 ，progbeg 将 三 元 组 分 配给 blkreg。ARGB 和 ASGNB 将 它们 的 源 地 址 寄存 器 定位 
到 预 留 的 blkreg 中 : 
(MIPS target 340 )+= 347 339 

case ASGNB: rtarget(p->kids[1], 0, blkreg); break; 

case ARGB: rtarget(p->kids[0], 0, bikreg); break; 
由 于 插 进 来 的 子 节 点 是 形式 上 的 INDIRB， 所 以 源 地 址 来 自 于 一 个 孙 节 点 。emit?2 处 理 ARGB 的 
分 支 与 处 理 ASGNB 的 分 支 类 似 。 
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(MIPS emit2 348 )+= B 346 
case ARGB: 

dalign = 4; 

salign = p->syms[1]->u.c.v.i; 

blkcopy(29, p->syms[2]->u.c.v.i, 
getregnum(p->x.kids[0]), 0, 
p->syms[0]->u.c.v.i, tmpregs); 

n = p->syms[2]->u.c.v.i + p->syms[0]->u.c.v.i; 

dst = p->syms[2]->u.c.v.i; 

for C ; dst <= 12 && dst < n; dst += 4) 
print("lw $%d,%d($sp)\n", (dst/4)+4, dst); 

break; 


由 代码 可 知 ,分 配给 输出 参数 的 栈 空间 总 是 按照 4 的 倍数 对 齐 ， 所 以 这 里 的 dalign 与 前 面 的 不 
同 ，blkcopy 和 它 的 辅助 程序 经 常 这 样 用 。 因 为 Ssp 是 目标 基准 寄存 器 。 所 以 blkcopy 的 第 一 个 参 
数 是 29， 第 二 个 参数 是 目的 块 的 栈 偏 移 量 ， 偏 移 量 由 doarg 计算 。 者 ARGB 覆盖 参数 的 头 4 个 
字 ， 那 么 程序 中 for 循环 语句 将 覆盖 的 部 分 复制 到 相应 的 参数 寄存 器 ， 这 样 做 才 符 合 调用 规则 。 


16.3 ”函数 的 实现 
编译 前 端 调 用 local 通知 每 个 新 的 局 部 变量 : 
(MIPS functions 337) += 347 350 335 
static void local(p) Symbol p; { 
if (askregvar(p, rmap[ttob(p->type)]) == 0) 


mkauto(p) ; 
} 


与 目标 机 器 无 关 的 例 程 做 了 大 部 分 工作 。 如 果 当 前 有 合适 的 可 分 配 的 寄存 器 ，askregvar 将 分 配 一 
个 寄存 需 给 p， 否 则 mkauto 指派 一 个 栈 偏 移 量 给 p。 图 16-1 显示 了 MIPS 栈 帧 的 结构 布局 。 
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sizeisave 
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图 16-1 MIPS 栈 帧 


前 端 调用 function 通 知 新 的 例 程 。 大 部 分 的 后 端 程序 由 function 驱动 。function 调用 
gencode, gencode 调用 gen， 青 由 gen 调用 标记 程序 ( labeller)、 化 简 程序 (reducer)、 线 性 化 程序 
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(linearizer) 和 寄存 器 分 配器 (register allocator). function 还 调用 前 端的 emitcode, emitcode 再 调 
用 后 端的 代码 产生 器 。 


(MIPS functions 337 ) 十 三 349 355 335 
static void function(f, caller, callee, ncalls) 
Symbol f, callee[), caller{); int ncalls; { 
int i, saved, sizefsave, sizeisave, varargs; 
Symbol r, argregs[4]; 


(MIPS function 350) 
} 


前 端 向 function 传递 3 个 参数 ， 分 别 是 : 代表 例 程 的 符号 、 表 示 调 用 程序 和 被 调用 程序 的 参数 视 
图 符号 向 量 ， 以 及 记录 例 程 引 发 的 调用 次 数 的 计数 器 。function 首先 释放 所 有 寄存 器 ， 人 然后 清除 
用 于 跟踪 帧 并 跟踪 输出 参数 的 复制 区 域 的 变量 : 


(MIPS function 350)= 350 350 
(clear register state 319) 
offset = maxoffset = maxargoffset = 0; 


HEP, function 判断 例 程 是 否 带 可 变 参数 ， 因 为 参数 是 否 可 变 将 关系 到 后 面 生成 的 代码 : 


(MIPS function 350)+= 350 350 350 
for (i = 0; callee[i]; i++) 
; 
varargs = variadic(f->type) 
|] i > 0 && strcemp(callee[i-1]->name, “va_alist") == 0; 


MIPS 体系 结构 的 机 器 规定 ， 函 数 必须 要 么 有 原型 ， 要 么 最 后 的 参数 应 该 命名 为 va_alist。 
function 根据 这 一 规定 来 确定 某 些 输 入 参数 的 位 置 : 


(MIPS function 350)+= 350 3§2 350 
for Ci = 0; callee[i]; i++) { 
(assign location for argument i 350) 
} 


前 面 曾 提 到 ， 参 数 的 头 4 个 字 (包括 对 齐 填充 的 间隙 ) 通过 寄存 器 8$4-$7 传递 。 但 如 果 第 一 个 参 
数 是 浮 点 或 双 精 度 ， 则 应 通过 $f12 传递 ， 如 果 第 二 个 参数 是 浮 点 或 双 精 度 ， 那 么 第 二 个 参数 通 
过 $f14 传递 ， 第 一 个 参数 仍 通 过 $f12 传递 。 这 个 调用 约定 使 得 function 实现 起 来 很 复杂 ， 特 别 
是 上 面 的 循环 体 非常 复杂 。function 首先 将 一 个 栈 偏 移 量 指派 给 参数 : 


(assign location for argument i 350)= 33] 350 
Symbol p = callee[i]; 
Symbol q = caller[iJ; 
offset = roundup(offset, q->type->align); 
p->x.offset = q->x.offset = offset; 
p->X.name = q->x.name = stringd(offset) ; 
r = argreg(i, offset, ttob(q->type), ttob(caller[0]->type)); 
if ci < 4) 
argregs[i] = r; 
offset = roundup(offset + q->type->size, 4); 
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程序 也 在 栈 中 给 那些 通过 寄存 器 传递 并 驻 留 在 寄存 器 中 的 参数 预 留 了 存储 位 置 。 事 实 上 ，argreg 
通过 偏 移 量 就 能 确定 哪个 寄存 器 中 有 参数 。argregs[i] 记录 了 argreg 关于 第 i 个 参数 的 结果 ， 以 备 
后 用 。 因 为 代码 通过 间接 寻 址 访问 变量 例 程 的 所 有 参数 ， 所 以 变 参 例 程 所 有 的 参数 均 存 在 栈 内 。 

(assign location for argument i 350)+= 350 351 350 

if (varargs) 
p->sclass = AUTO; 

对 于 一 个 通过 寄存 器 传递 的 参数 ， 若 例 程 不 包含 可 能 重 写 该 寄存 器 的 调用 ， 这 时 参数 只 要 满 
足下 面 3 个 条 件 就 可 以 驻 留 在 寄存 器 中 : (1 ) 不 是 一 个 结构 , (2) 不 是 间接 访问 ，( 3 ) 不 是 通过 
整 型 寄存 器 传递 的 浮 点 数 。 


(leave argument in place? 351)= 351 
r & ncalls == 0 & 
lisstruct(q->type) && !p->addressed & 
!(Cisfloat(q->type) && r->x.regnode->set == IREG) 


(assign location for argument ì 350 )+= Bi 351 350 
else if ((leave argument in place? 351)) { 
p->sclass = q->sclass = REGISTER; 
askregvar(p, r); 
q->x = p->x; 
q->type = p->type; 
} 
这 里 + 不 可 能 因 其 他 目的 而 被 分 配 ， 所 以 askregvar 总 能 执行 成 功 ， 代 码 中 有 一 个 隐 含 的 断言 来 确 
认 这 个 判断 。 参 数 的 type IA sclass 域 保 持 一 致 能 避免 前 端 生成 复制 或 转换 参数 的 代码 。 最 后 还 
必须 给 那些 先前 没有 分 配 或 不 能 驻 留 在 原 寄 存 器 中 的 参数 分 配 寄存 器 : 
(assign location for argument i 350)+= 351 350 
else if ((copy argument to another register? 351)) { 
p->sclass = q->sclass = REGISTER; 
q->type = p->type; 


当 且 仅 当 参数 通过 寄存 器 传递 ， 并 且 必 须 移 到 另 一 个 寄存 器 时 ， 才 能 满足 上 面 代码 的 让 条 件 。 例 
如 ， 如 果 某 个 参数 通过 $4 传递 ， 但 是 例 程 要 执行 新 的 调用 ， 这 时 $4 必须 存储 输出 参数 。 如 果 
输入 参数 只 用 到 一 个 寄存 器 ， 那 么 上 述 代码 将 把 输入 参数 复制 到 另 一 个 寄存 器 中 。 较 特殊 的 情 
况 是 ， 浮 点 参数 可 能 存 人 整数 寄存 器 ， 而 前 端 不 能 表示 这 样 的 操作 ， 这 时 上 述 代码 根据 type 和 
scalss 通知 前 端 不 生成 代码 ， 由 第 354 页 的 程序 段 <save argument in a register> 生成 复制 指令 。 

要 满足 程序 最 后 的 else-if 语 句 的 条 件 ， 需 要 测试 3 个 从 名 。 首 先 ，askregvar 必须 能 够 为 该 参 
数 分 配 寄 存 器 : 

(copy argument to another register? 351)= 39235! 

askregvar(p, rmap[ttob(p->type) ]) 

如 果 分 配 失败 ， 参 数 只 有 存 人 存储 器 。 如 果 参 数 不 在 栈 里 ， 程 序 段 <save argument in stack> 
( 见 第 354 页 ) 会 把 它 压 人 栈 中 。 在 这 种 情况 下 ， 两 个 sclass 域 已 经 一 致 ， 但 我 们 不 希望 两 个 field 
域 一 致 ， 因 为 这 样 可 能 需要 一 个 转换 才 行 。 例 如 ， 在 高 位 优先 中 ,一 个 新 风格 函数 的 字符 参数 需 
要 转换 ， 它 只 能 以 整数 方式 传递 ， 所 以 它 的 值 存 人 参数 字 中 最 低 有 效 位 ， 但 是 它 在 后 面 必须 以 字 
符 的 形式 访问 ， 所 以 在 高 位 优先 的 机 器 中 ， 它 的 值 必须 移 到 字 的 最 高 有 效 位 。 
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第 二 个 条 件 进一步 确认 参数 已 存 人 寄存 器 : 


(copy argument to another register? 351) 十 三 $1 352 351 
&& r != NULL 


如 果 条 件 不 满足 ， 这 时 参数 通过 存储 器 传递 ， 需 要 将 该 参数 读 取 到 由 askregvar 确定 的 寄存 器 中 。 
例如 ， 这 种 参数 可 能 是 5 个 整 型 参数 中 的 最 后 一 个 ， 这 意味 着 它 将 通过 存储 器 传递 ， 如 果 这 个 参 
数 使 用 频繁 ， 那 么 还 应 该 将 其 存 人 寄存 器 。askregvar 设置 p>sclass 为 REGISTER, ii q->sclass 
绝 不 会 是 REGISTER。 因 此 ， 如 果 条 件 不 满足 且 p->sclass 与 q->sclass 的 值 不 同 ， 前 端 就 会 生成 
读 取 操 作 。 
第 三 个 条 件 ( 即 最 后 一 个 条 件 ) 是 确认 不 需要 转换 : 
(copy argument to another register? 351)+= 332351 
&& Cisint(p->type) || p->type == q->type) 
例如 ， 如 果 q( 调 用 程序 ) 是 双 精 度数 ，p 是 浮 点 数 ; 那么 必须 用 到 CVDF。 这 时 p Al q 的 sclass 
和 type 不 相等 ， 条 件 的 不 满足 导致 前 端 生成 类 型 转换 操作 。 
为 所 有 参数 指派 存储 位 置 后 ，function 调用 gencode 为 例 程 体 选取 代码 并 分 配 寡 存 需 : 
(MIPS function 350) 十 三 350 352 350 
offset = 0; 
gencode(caller, callee); 
gencode 返回 时 ，usedmask 标识 了 例 程 所 用 的 寄存 器 。function 为 usedmask 再 加 上 保存 返回 
地 址 的 寄存 器 〈 除 非 该 例 程 没有 包含 调用 )， 并 且 删 除 调 用 程序 保存 的 寄存 器 。 
{MIPS function350 )+= 332 352 350 
if (ncalls) 
usedmask[IREG] |= (Cunsigned)1)<<31; 


usedmask[IREG] & OxcO0ff0000; 
usedmask[FREG] & Oxfff00000; 


然后 function 计算 参数 建立 区 的 大 小 : 


(MIPS function350 )+= 352 352 350 
maxargoffset = roundup(maxargoffset, 4); 
if (maxargoffset && maxargoffset < 16) 
maxargoffset = 16; 
调用 约定 要 求 输 出 参数 块 的 大 小 必须 为 4 的 倍数 ， 而 且 参 数 块 若 不 为 空 ， 则 至 少 为 16 个 字 节 。 
function 计算 帧 以 及 帧 内 部 用 来 存放 浮 点 寄存 器 和 整数 寄存 器 的 块 的 大 小 。 
(MIPS function 350 ) + 三 $2 353 350 
sizefsave = 4*bitcount (usedmask[FREG]); 
sizeisave = 4*bitcount (usedmask[IREG]); 


framesize = roundup(maxargoffset + sizefsave 
+ sizeisave + maxoffset, 8); 


bitcount 计算 无 符号 整数 中 为 1 的 位 的 数目 。 图 16-1 RRA per 我 们 遵循 的 约定 保 
证 了 栈 按 双 字 对 齐 。 

现在 function 得 到 了 开始 产生 例 程 所 需要 的 数据 。 函 数 头 代码 转 到 代码 段 ， 确 保 按 字 对 齐 ， 
并 生成 了 MIPS 例 程 的 起 始 代码 的 样板 : 


MIPS R3000 473.49 BK 353 


(MIPS function350) += 352 353 350 

segment (CODE) ; 
print(".align 2\n"); 
print(".ent %s\n", f->x.name); 
print("%s:\n", f->x.name); 
i = maxargoffset + sizefsave - framesize; 
print(". frame $sp,%d,$31\n", framesize); 
if (framesize > 0) 

print("addu $sp,$sp,%d\n", -framesize); 
if Cusedmask[FREG]) 

print(".fmask Ox%x,%d\n", usedmask[FREG], i - 8); 
if Cusedmask[{IREG]) 

print(".mask Ox%x,%d\n", usedmask{IREG], 

i + sizeisave - 4); 


lee 的 代码 只 使 用 标号 和 addu, addu 为 例 程 分 配 帧 。 其 余 的 指示 符 是 为 满足 其 他 程序 的 需要 (如 
调试 程序 和 性 能 分 析 ) 而 描述 例 程 。.ent 通知 程序 入 日 点 ; frame 声明 栈 指 针 、 帧 大 小 和 返回 地 
址 寄存 器 ; .fmask 和 mask 分 别 标识 被 保存 的 寄存 器 及 其 在 栈 中 的 位 置 。 

接 下 来 的 函数 头 代码 保 存 由 被 调用 程序 所 保存 的 寄存 器 ， 参 见 表 16-2: 


(MIPS function350 )+= 353 353 350 
saved = maxargoffset; 
for (i = 20; i <= 30; i += 2) 
if Cusedmask[FREG]&(3<<i)) { 
print("s.d $f%d,¥%d($sp)\n", i, saved); 
saved += 8; 
} 
for (i = 16; i <= 31; i++) 
if Cusedmask[IREG]&(1<<i)) { 
print("sw $%d,%d($sp)\n", i, saved); 
saved += 4; 


} 
然后 保存 通过 寄存 器 传递 的 参数 : 
(MIPS function 350) += $33 353 350 


for (i = 0; i < 4 & calleef{i]; i++) { 
r = argregs[i]; 
if (r && r->x.regnode != callee[i]->x.regnode) { 
(save argument i 354 ) 
} 
} 


对 于 变 参 例 程 来 说 ， 由 于 每 次 对 它 的 调用 所 使 用 的 参数 个 数 都 可 能 不 同 ， 所 以 lee 还 应 保存 
其 余 的 整 型 参数 寄存 器 : 


(MIPS function 350) += 383 355 ` 350 
if (varargs && calleefi-1]) { 
i = callee[i-1]->x.offset + callee[i-1]->type->size; 
for Ci = roundup(i, 4)/4; i <= 3; i++) 
print("sw $%d,Xd($sp)\n", i + 4, framesize + 4*i); 
} 


354 # 16 


该 循环 从 它 前 面 的 循环 没有 处 理 的 参数 开始 执行 ， 直 到 存储 完 最 后 一 个 整 型 参数 寄存 器 $7。 
对 于 非 变 参 例 程 来 说 ， 函 数 头 代码 只 保存 那些 被 使 用 但 不 能 继续 驻 留 的 参数 寄存 器 : 


(save argument i 354 )= 353 
Symbol out = callee[i]; 
Symbol in = caller[i]; 
int rn = r->x.regnode->number; 
int rs = r->x.regnode->set; 
int tyin = ttob(Cin->type); 


if (out->sclass == REGISTER 

&& Cisint(out->type) || out->type == in->type)) { 
(save argument in a register 354) 

} else { 
(save argument in stack 354) 


函数 头 代码 可 区 分 通过 寄存 器 传递 的 参数 与 通过 存储 器 传递 的 参数 。&& 之 后 的 子 句 匹 配 前 
面 第 351 页 的 <leave argument in place?> 中 的 条 件 ， 它 决定 了 在 这 里 应 该 生成 什么 代码 。 

如 果 通 过 寄存 器 传递 的 参数 已 经 分 配 到 了 某 个 寄存 器 ， 但 不 能 继续 驻 留 在 该 寄存 器 中 ， 那 么 
function 将 产生 代码 把 输入 参数 寄存 器 的 值 复制 到 其 他 寄存 器 中 : 


(save argument in a register354)= 354 
int outn = out->x.regnode->number; 
if (rs == FREG & tyin == D) 
print("mov.d $f%d,$f%d\n", outn, rn); 
else if (rs == FREG && tyin == F) 
print("mov.s $f%d,$f%d\n", outn, rn); 
else if (rs == IREG & tyin == D) 
print("mtcl.d $%d,$f¥d\n", rn, outn) ; 
else if (rs == IREG & tyin == F) 
print("mtcl $%d,$f%¥d\n", rn, outn); 


else 
print("move $Xd,$%d\n", outn, rn); 
如 果 参 数 已 被 指派 到 存储 器 中 ， 那 么 函数 头 代 码 会 将 参数 写 和 人 程序 的 活动 记录 中 ; 
(save argument in stack 354)= 354 


int off = in->x.offset + framesize; 
if (rs == FREG && tyin == D) 

print("s.d $f%d,%d($sp)\n", rn, off); 
else if (rs == FREG && tyin == F) 

print("s.s $f%d,%d($sp)\n", rn, off); 
else { 

int i, n = Cin->type->size + 3)/4; 

for Ci = rn; i < rnn && i <= 7; i++) 

print("sw $%d,%d($sp)\n", i, off + Ci-rn)*4); 

} 


最 后 的 else 子 句 内 的 for 循环 通常 只 执行 一 次 ， 保 存 一 个 整 型 参数 ， 但 它 也 可 以 处 理 通 过 整 型 寄 


存 器 传递 的 浮 点 数 ，for 循环 还 能 推广 到 处 理 双 精 度 和 结构 参数 ， 这 些 参数 一 般 占用 多 个 整 型 寄 
存 器 。 当 循环 处 理 完 所 有 参数 或 参数 寄存 器 后 即 终止 ， 不 论 二 者 哪个 先 处 理 完 。 


MIPS R3000 代码 的 生成 


在 产生 函数 头 代 码 之 后 ，function 产生 程序 体 : 


(MIPS function 350) += 353 355 350 


emitcode(); 


函数 尾 代 码 重 新 读 取 由 被 调用 程序 保存 的 寄存 器 ， 首 先 载 人 浮 点 寄存 器 : 


(MIPS function350)+= 335 355 
saved = maxargoffset; 
for (i = 20; i <= 30; i += 2) 
if Cusedmask[FREGJ&(3<<i)) { 
print("1.d Sf¥%d,%d($sp)\n", i, saved); 


saved += 8; 
} 
然后 是 通用 寄存 器 : 
(MIPS function 350) += 355 355 


for (i = 16; i <= 31; i++) 
if Cusedmask [IREG]&(1<<i)) { 
print ("lw $%d,%d($sp)\n", i, saved); 
saved += 4; 


} 
再 把 帧 弹出 栈 : 


(MIPS function350)+= 195 355 
if (framesize > 0) 
printC"addu $sp,$sp,%d\n", framesize) ; 


并 返回 : 
(MIPS function 350)+= 高 


print("j $31\n"); 
print(".end %s\n", f->x.name) ; 


16.4 数据 的 定义 


defconst 产生 汇编 指示 符 以 分 配 一 个 标量 ， 并 把 标量 初始 化 成 常量 : 


(MIPS functions 337) += 350 356 
static void defconst(ty, v) int ty; Value v; { 
switch (ty) { 
{MIPS defconst 355) 
} 
} 


不 同 的 整数 类 型 将 产生 大 小 相关 的 指示 符 及 相应 的 常量 域 : 


(MIPS defconst 355 ) 三 356 
case C: print(".byte %d\n", v.uc); return; 
case S: print(". half %d\n", v.ss); return; 
case I: print(".word Ox%x\n", v.i); return; 
case U: printC".word OxX¥x\n", v.u); return; 


350 


350 


350 


350 


355 


B55; 
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数字 地 址 常量 分 支 将 地 址 常量 当成 无 符号 整数 处 理 : 


(MIPS defconst 355)+= 385 356 355 
case P: print(".word Ox%x\n", v.p); return; 
defaddress 处 理 符 号 地 址 常量 : 
(MIPS functions 337)+= 385 356 335 


static void defaddress(p) Symbol p; { 
print(”.word %s\n", p->x.name); 


汇编 程序 的 float 和 double 指示 符 不 能 表示 通过 计算 表达 式 得 到 的 浮 点 常量 (例如 类 型 转换 得 到 
的 浮 点 常量 )， 所 以 defconst 产生 十 六 进 制 的 浮 点 常量 : 


(MIPS defconst 355 )+= 336 356 355 
case F: print(".word Ox%x\n", *Cunsigned *)&v.f); return; 


如 果 lce 在 低位 优先 的 机 器 上 运行 ， 却 为 高 位 优先 的 机 器 编译 生成 代码 ， 则 一 定 要 交换 每 个 双 精 
度数 的 高 位 和 低位 两 部 分 ， 反 之 亦 然 : 


(MIPS defconst 355) += 386 355 
case D: { 
unsigned *p = (unsigned *)&v.d; 
print(".word Ox%x\n.word Ox%x\n", p[swap], p[!swap}); 
return; 


} 


要 避免 这 种 潜在 的 交换 ， 程 序 必 须 约 定 宿主 机 与 目标 机 的 浮 点 编码 方式 一 致 。 现 在 大 多 数目 标 机 
都 使 用 IEEE 浮 点 ， 这 种 约定 无 须 强 制 。 
defstring 生成 处 理 字 节 序列 的 指示 符 : 


(MIPS functions 337)+= 336 356 335 
static void defstring(n, str) int n; char *str; { 
char *s; 


for (s = str; S < str + n; S++) 
print(".byte %d\n", (*s)&0377); 
} 


HF ANSI Pa Ri SATB PRA EF, ATLA defstring 通过 计数 找到 字符 串 尾 。 
export 通过 使 用 汇编 指示 符 使 得 本 模块 的 符号 在 其 他 模块 中 可 见 : 


(MIPS functions 337)+= 336 356 335 
static void export(p) Symbol p; { 
print(".globl %s\n", p->x.name); 
} 


相应 地 ，import 使 用 配套 的 指示 符 使 其 他 模块 中 的 符号 在 本 模块 中 可 见 : 


(MIPS functions 337)+= 386 357 335 
static void import(p) Symbol p; { 
if C!isfunc(p->type)) 
print(".extern %s ¥d\n", p->name, p->type->size); 
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MIPS 编译 器 的 约定 将 忽略 这 些 用 于 函数 的 指示 符 。 
前 端 调用 defsymbol 通知 新 的 符号 ， 并 提示 后 端 初始 化 xname 域 : 
(MIPS functions 337)+= 386 357 335 


static void defsymbol(p) Symbol p; { 
(MIPS defsymbo] 357 ) 


} 
defsymbol 给 每 个 静态 局 部 变量 定义 唯一 的 标识 ， 防 止 与 其 他 静态 局 部 变量 重 名 : 
(MIPS def symbo1 357 )= 357 357 


if (p->scope >= LOCAL && p->sclass == STATIC) 
p->x.name = stringf("L.%d", genlabel(1)); 
MIPS 编译 器 规则 约定 ， 这 类 符号 以 工 和 点 号 开头 ， 如 果 生 成 的 符号 未 按 上 述 规则 进行 转换 ， 
那么 name 域 已 经 保存 一 个 数字 串 ， 
(MIPS defsymbol 357) += 387 357 357 


else if (p->generated) 
p->x.name = stringf("L.%s", p->name); 


其 他 情况 下 ， 符 号 的 名 字 在 前 端 和 后 端 中 都 相同 : 


(MIPS defsymbo1 357) += 387-357 
else 
p->x.name = p->name; 
许多 UNIX 汇编 程序 通常 忽略 符号 表 中 以 工 开 头 的 符号 ， 所 以 我 们 将 临时 变量 的 名 字 都 以 工 开 
头 ， 这 样 编译 器 就 能 节省 目标 文件 的 空间 。 
address 的 功能 与 defsymbol 处 理 表示 其 他 符号 的 符号 一 样 ， 但 名 字 中 增加 了 偏 移 常量 。 
(MIPS functions337)+= 357 338 335 
static void address(q, p, n) Symbol q, p; int n; { 
q->x.offset = p->x.offset + n; 
if (p->scope == GLOBAL 
|| p->sclass == STATIC || p->sclass == EXTERN) 
q->x.name = stringf("X%s%s%d", p->x.name, 
oe ce Ask os Ds 
else 
q->x.name = stringd(q->x.offset); 
} 
对 栈 内 的 变量 而 言 ，address 只 计算 了 调整 后 的 偏 移 量 。 而 对 于 通过 标记 访问 的 变量 ，address 将 
x.name 设置 成 name +n 的 字符 串 形式 。 如 果 偏 移 量 是正 的 ， 那么 “ +” 产生 操作 符 ， 如 果 偏 移 是 
负 ， 则 由 %d 产生 操作 符 。 

MIPS 编译 带 约 定 对 全 局 变量 做 了 划分 ， 从 而 能 更 快 地 存 取 较 小 的 全 局 变量 。 通 常情 况 下 ， 
MIPS 机 器 将 寄存 器 值 与 有 符号 16 位 指令 域 相 加 形成 地 址 ， 因 此 存 取 一 个 32 位 地 址 不 得 不 使 用 
多 条 指令 。 为 了 减少 对 这 种 指令 序列 的 需求 ， 翻 译 程序 把 小 的 全 局 变量 放 到 一 个 大 小 为 64 KB 的 
sdata 段 内 ， 另 外 再 将 sdata 的 基地 址 存 人 寄存 器 $Sgp， 这 样 我 们 就 能 用 一 条 指令 访问 在 这 64 KB 
中 的 全 局 变量 了 。-Gn 选项 设置 阔 值 gnum: 


358 B16 ¢ 


w 


(MIPS data337)+= 338 358 335 


static int gnum = 8; 


(parse -G flag 358)= 337 
parseflags(argc, argv); 
for (i = 0; i < argc; i++) 
if (strncmp(argv[i}, "-G", 2) == 0) 
gnum = atoi(argv[i] + 2); 


前 端 调用 接口 过 程 global 通知 新 的 全 局 符号 : 


(MIPS functions 337)+= 387 359 3 
static void global(p) Symbol p; { in 
if (p->u.seg == BSS) { 
(define an uninitialized global 358 ) 
} else { 
(define an initialized global 358) 
} 


Ww 


5 


} 
global 将 已 初始 化 的 小 全 局 符号 放 入 sdata， 其 余 的 放 入 data: 


(define an initialized global 358)= 358 
if (p->u.seg == DATA 
&& (p->type->size == 0 || p->type->size > gnum)) 
print(".data\n"); 
else if (p->u.seg == DATA) 
print(".sdata\n"); 
printC”.align %c\n", ".01.2...3"[p->type->align]); 
print("%s:\n", p->x.name); 
4 p->type->size 未 定时 ， 其 值 为 0。 这 种 情况 通常 发 生 在 数组 声明 时 没有 注 明 数组 边界 。global 
程序 最 后 产生 一 个 对 齐 指示 符 和 一 个 标号 。”. 01.2…3”[x] 是 一 个 关于 对 齐 字 节 数 x 的 以 2 为 底 
的 对 数 的 压缩 表达 式 ， 这 是 align 指示 符 的 数据 人 处理 格式 。 
对 于 未 初始 化 的 全 局 符号 而 言 ， 指 示 符 一 般 隐 式 定义 了 标号 ， 预 留 了 空间 ， 并 根据 大 小 选取 
了 合适 的 段 : 
(define an uninitialized global 358) = 358 
if (p->sclass == STATIC || Aflag >= 2) 
print(".1comm %s,%d\n", p->x.name, p->type->size); 
else 
print( ".comm %s,%d\n", p->x.name, p->type->size); 


.comm 输出 符号 并 进行 了 标记 ， 这 样 即使 其 他 模块 也 为 相同 标识 符 产 生 comm 指示 符 ， 装 配 程 
序 也 只 生成 一 个 公用 的 全 局 符号 。.lcomm 则 不 同 ，lcc 用 .lcomm 处 理 静 态 符号 ， 防 止 输出 静态 
符号 。 当 多 个 模块 定义 同一 全 局 符号 时 ， 如 果 使 用 了 编译 选项 -A-A( 即 Aflag>=2 ), Ie 也 会 使 
用 .lcomm 生成 装配 对 象 。ANSI 之 前 的 C 允许 多 次 定义 同一 符号 ， 但 从 技术 上 讲 ，ANSI C 要求 
每 个 符号 只 定义 一 次 ， 其 他 的 模块 应 使 用 extern 声明 代替 定义 。 


cseg 跟踪 当前 段 : 
(MIPS data 337) += 358 335 


static int cseg; 
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DATA 和 BSS 段 中 的 符号 完成 各 自 的 段 分 支 处 理 ，segment 只 为 文本 段 和 文字 段 产 生 指 示 符 : 


(MIPS functions 337)+= Wa 399 335 
static void segment(n) int n; { 
cseg = Nn; 


switch (n) { 
case CODE: print(".text\n"); break; 
case LIT: print(".rdata\n"); break; 
} 

} 


因为 global 要 为 BSS 的 符号 分 配 空间 ， 所 以 除非 符号 不 在 BSS 段 中 ， 否 则 space 将 产生 指示 符 
预 留存 储 块 : 
(MIPS functions 337) += 359 359 335 
static void space(n) int n; { 


if (cseg != BSS) 
print(".space ¥d\n", n); 


space 将 块 清 零 ， 这 是 C 语言 标准 的 要 求 。 


16.5 HHEH 


blkloop 产生 循环 从 源 地 址 处 复制 size 个 字 节 到 目的 地 址 处 ， 其 中 源 地 址 通过 寄存 器 sreg 
和 偏 移 量 soff 相 加 而 成 ， 目 的 地 址 通过 寄存 器 dreg Fil a Æ do 企 相 加 而 成 。 图 13-4 显示 了 


— g 


blkloop, blkfetch 和 blkstore 的 运行 情况 。 


(MIPS functions 337) += 359 360 335 
static void blkloop(dreg, doff, sreg, soff, size, tmps) 
int dreg, doff, sreg, soff, size, tmps[]; { 
int lab = genlabel(1); 


print("addu $%d,$%d,%d\n", sreg, sreg, size&7); 
print("addu $%d,$%d,%d\n", tmps[2], dreg, size&7); 
blkcopy(tmps[2], doff, sreg, soff, size&7, tmps); 
print("L.¥d:\n", lab); 
print("addu $%d,$%d,%d\n", sreg, sreg, -8); 
print("addu $%d,$%d,%d\n", tmps[2], tmps[2], -8); 
blkcopy(tmps[2], doff, sreg, soff, 8, tmps); 
print("blitu $%d,$%d,L.%d\n", dreg, tmps[2], lab); 

} 


tmps 命名 3 个 寄存 器 ， 将 它们 用 作 临 时 寄存 器 。 每 次 迭代 都 复制 8 个 字 节 。 初 始 代码 将 sreg 和 
tmps[2] 指向 要 复制 的 块 的 末端 。 如 果 块 大 小 不 是 8 的 倍数 ， 则 第 一 次 调用 blkcopy 会 复制 余下 的 
几 位 。 接 着 循环 递减 寄存 器 sreg 和 tmps[2] 的 值 ， 并 调用 blkcopy 复制 sreg 和 tmps[2] 当前 所 指 
的 8 个 字 节 ， 循 环 直到 寄存 器 tmps[2] 中 的 值 与 寄存 器 dreg 中 的 值 相等 才 终止 。 

寄存 器 reg 和 偏 移 量 o 企 相 加 形成 一 个 地 址 ，blkfetch 以 1、2 或 4 个 字 节 的 形式 将 该 地 址 单 
元 的 内 容 读 取 到 寄存 器 tmp: 
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(MIPS functions 337) += 359 360 335 
static void blkfetch(size, off, reg, tmp) 
int size, off, reg, tmp; { 
if (size == 1) 
print("Ibu $%d,%d($%d)\n", tmp, off, reg); 
else if (salign >= size && size == 2) 
print("Thu $%d,%d($%d)\n", tmp, off, reg); 
else if (salign >= size) 
printC"Iw $%d,%d($%d)\n", tmp, off, reg); 
else if (size == 2) 
printC"ulhu $%d,%d($%d)\n", tmp, off, reg); 
else 
printC"ulw $%d,%d($%d)\n", tmp, off, reg); 
} 


如 果 源 寄存 器 对 齐 字 节 数 (由 salign 给 出 ) 不 小 于 要 读 取 的 单元 的 大 小 ,那么 blkfetch 使 用 一 般 
对 齐 方式 读 取 ， 和 否则 blkfetch 用 汇编 伪 指 令 读 取 未 对 齐 的 单元 。 对 读 取 字 节 来 说 ， 对 齐 是 没有 实 
际 意 义 的 。blkstore 是 blkfetch 的 逆 过 程 : 


(MIPS functions 337) += 360 335 
static void blkstore(size, off, reg, tmp) 
int size, off, reg, tmp; { 
if (size == 1) 
print("sb $%d,%d($%d)\n", tmp, off, reg); 
else if (dalign >= size && size == 2) 
print("sh $%d,%d($%d)\n", tmp, off, reg); 
else if (dalign >= size) 
print("sw $%d,%d($%d)\n", tmp, off, reg); 
else if (size == 2) 
printC"ush $%d,%d($%d)\n", tmp, off, reg); 
else 
print("usw $%d,%d($%d)\n", tmp, off, reg); 


深入 阅读 
Kane and Heinrich ( 1992 ) 提供 了 MIPS R3000 系列 的 参考 手册 。lcc 的 MIPS 代码 生成 器 能 
在 新 的 MIPS R4000 系列 机 上 运行 ， 但 是 它 不 能 利用 R4000 的 64- 位 指令 。 


练习 


16.1 为 什么 小 的 全 局 数组 不 能 进入 sdata? 

16.2 为 什么 所 有 非 空 的 参数 建立 区 域 必须 至 少 是 16 字 节 长 ? 

16.3 请 解释 当 变 参 例 程 的 第 一 个 参数 是 浮 点 型 或 双 精度 型 时 ，MIPS 的 调用 约定 为 什么 不 能 处 理 该 变 参 
例 程 。 

16.4 ”请 解释 在 变 长 参数 列表 的 未 声明 后 缀 中 ， 为 什么 MIPS 的 调用 约定 不 能 实现 结构 的 可 靠 传 递 ， 怎 样 才 
能 解决 这 个 问题 ? 

16.5 ”对 lcc 进行 扩展 ， 使 得 lec 能 产生 有 关 标 识 符 的 类 型 和 位 置 的 信息 ， 当 调试 程序 报告 和 改变 标识 符 的 
值 时 需要 这 些 信 息 。 


MIPS R3000 4 349 Æ AX 361 


16.6 15.3 节 介 绍 了 ralloc 的 假设 : 在 处 理 完 所 有 源 寄 存 器 之 前 ， 所 有 模板 不 能 更 改 目 标 寄存 器 。lecc 的 
CVID MIPS 模板 ( 见 第 343 页 ) 通过 两 种 方法 达到 了 这 一 要 求 ， 请 说 明 这 两 种 方法 。 
16.7 LA MIPS 代码 生成 器 为 模式 ， 为 诸如 DEC Alpha 或 Motorola PowerPC 的 RISC 机 器 编写 代码 生成 器 。 


请 先 阅读 19.2 节 。 
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SPARC 也 是 RISC 结构 。SPARC 结构 包括 32 个 32 位 通用 寄存 器 、32 个 32 位 浮 点 寄存 器 、 
1 个 32 位 紧缩 指令 集 和 两 种 寻 址 模式 。 与 MIPS 一 样 ， 访 存 时 必须 显 式 地 使 用 存 取 指令 。 

SPARC 与 MIPS 最 大 的 不 同 之 处 在 于 SPARC 增加 了 1 个 寄存 器 窗口 ， 能 在 调用 和 返回 时 
自动 存储 和 恢复 寄存 器 。 与 此 相关 的 调用 约定 也 要 求 对 function 做 许多 改变 。 真 正 最 简单 的 
function 实例 请 查看 X86 的 function, 

lce 的 生成 目标 是 汇编 语言 ， 而 不 是 机 器 语言 。MIPS 和 SPARC 的 汇编 程序 也 大 不 相同 ， 因 
此 两 者 的 代码 生成 器 也 不 一 样 。 例 如 ， 对 大 多 数 RISC 机 器 而 言 ， 一 条 指令 就 能 实现 寄存 器 值 小 
常量 的 自 增 。 稍 大 常量 的 自 增 则 需要 花费 多 条 指令 ， 通 常 先 将 常量 扩展 成 32 位 存 人 临时 变量 ， 
然后 再 与 寄存 器 相 加 。 但 MIPS 汇编 程序 屏蔽 了 这 些 特征 ， 也 就 是 说 ， 我 们 可 以 使 用 任意 大 小 的 
常量 ， 汇 编程 序 在 必要 时 生成 多 条 指令 实现 。SPARC 汇编 程序 的 翻译 工作 相对 而 言 更 忠实 于 代 
码 生成 器 生成 的 代码 ， 它 要 求 代码 生成 器 为 大 小 不 同 的 常量 生成 不 同 的 代码 。 另 外 ，MIPS 汇编 
程序 能 够 调度 指令 ， 而 SPARC 不 能 。 

SPARC 汇编 指令 中 ， 源 操作 数位 于 目的 操作 数 之 前 。 寄 存 器 名 字 之 前 有 一 个 “%”。 表 17-1 
列举 的 指令 对 于 我 们 理解 SPARC 代码 生成 已 经 足够 了 。 

表 17-1 SPARC 汇编 器 输入 样 例 


汇编 指令 意义 
mov %i0, %o0 将 寄存 器 00 的 值 设 置 为 寄存 器 il 的 值 
sub %i0, %il, %00 将 寄存 器 00 的 值 设置 为 寄存 器 i0 的 值 减 去 寄存 器 il 的 值 
sub %i0, 1, %o0 将 寄存 器 00 的 值 设置 为 寄存 器 i0 的 值 减 去 1 
Idsb [%i0+4], %00 将 寄存 器 00 的 值 设 置 为 地 址 为 寄存 器 i0 的 值 加 上 4 的 字 节 单元 的 值 
ldsb [%i0+%i4],%o0 将 寄存 器 o0 的 值 设置 为 地 址 为 寄存 器 i0 的 值 加 上 寄存 器 i4 的 值 的 字 节 单元 的 值 
fsubd $f0, $f2, $f4 将 寄存 器 fA 的 值 设置 为 寄存 器 fO 的 值 减 去 寄存 器 £2 的 值 ， 使 用 双 精 度 浮 点 运算 
fsubs $f0, $f2, $f4 将 寄存 器 fA 的 值 设置 为 寄存 器 fO 的 值 减 去 寄存 器 包 的 值 ， 使 用 单 精度 浮 点 运算 
ba LI 跳 转 到 标号 为 Ll 的 指令 处 
jmp [%i0] 跳 转 到 寄存 器 i0 所 指 的 单元 
cmp %i0, %il 比较 寄存 器 i0 和 il 的 值 ， 比 较 结果 保存 在 条 件 标志 中 
bl LI 如 果 上 次 比较 结果 为 小 于 ， 转 移 到 标号 L1 处 
byte 0x20 将 内 存 中 下 一 个 字 节 单元 初始 化 成 十 六 进 制 数 20 


文件 sparc.c 包含 所 有 与 SPARC 结构 相关 的 代码 和 数据 。 下 面 是 lburg 规范 ， 其 中 接口 例 程 
在 文法 的 后 面 : 


(sparc .md 362 ) 三 
%{ 
(lburg prefix 293) 
(interface prototypes) 
(SPARC prototypes) 
(SPARC data365 ) 
%} 


SPARC KH ZK 363 


(terminal declarations 293 ) 
X% 


(shared rules312) 
(SPARC rules 367) 


x% 


(SPARC functions 364) 
(SPARC interface definition 363 ) 


最 后 的 程序 段 <SPARC interface definition 363> 对 前 端 进行 配置 ， 并 指向 后 端的 SPARC 的 例 程 和 


数据 : 


(SPARC interface definition 363 ) 三 363 
Interface sparcIR = { 
(SPARC type metrics 363) 
0, /* little_endian */ 
1, /* mulops_calls */ 
1, /* wants_callb */ 
0, /* wants_argb */ 
1, /* left_to_right */ 
0, /* wants_dag */ 
(interface routine names) 
stabblock, 0, 0, stabinit, stabline, stabsym, stabtype, 


{ 
1, 


/* max_unaligned_load */ 


(Xinterface initializer 277) 


} 
$s 


(SPARC type metrics 363)= 363 


1, 1, 0, 
2, 0, 
4, 0, 

» 4,1, 
8, 1, 
4, 0, 

a, 0; 


/* char */ 
/*, short..*7 
fei hte t/ 

f* Float, */ 
/* double */ 
SATEN 
/* struct */ 


因为 某 些 SPARC 处 理 器 是 用 代码 而 不 是 硬件 实现 乘法 和 除法 ， 所 以 mulops_calls 的 值 为 1。 

SPARC 和 MIPS 关于 结构 参数 和 返回 值 的 约定 是 相反 的 。MIPS 约定 使 用 ARGB， 但 不 使 用 
CALLB，SPARC 的 约定 与 之 相反 。 

SPARC 删除 了 符号 表 生 成 器 。 在 stab 例 程 中 ， 两 个 0 表示 无 须 为 特定 目标 生成 代码 。 当 在 
其 他 机 器 上 建立 SPARC 代码 生成 器 以 形成 交叉 编译 器 时 ， 由 于 其 他 stab 例 程 的 代码 包含 或 引用 
T SPARC 系统 特有 的 头 文件 和 标识 符 ， 所 以 使 用 #defined 将 其 他 stab 例 程 也 定义 为 0。 


17.1 寄存 器 


SPARC 汇编 程序 设计 者 必须 了 解 SPARC 的 32 个 32 位 通用 寄存 器 ， 其 中 大 多 数 寄存 器 组 织 
成 可 重叠 的 寄存 器 窗口 栈 。 大 部 分 的 例 程 通过 分 配 新 的 窗口 来 存储 局 部 变量 、 临 时 变量 和 输出 参 
数 (调用 约定 规定 有 些 参数 通过 寄存 器 传递 )， 返 回 时 释放 窗口 。 

每 个 通用 寄存 器 至 少 对 应 两 个 名 字 ， 见 表 17-2。 一 个 是 r0 ~ 131， 男 一 个 名 字 编 码 主要 标识 


364 RAVE 


该 寄存 器 在 寄存 器 窗口 中 的 使 用 和 位 置 。 硬 件 将 g0 置 为 0。 指令 可 以 写 g0, 但 实际 上 并 不 能 改 
变 g0。 因 此 读 取 g0 时 ，g0 的 值 总 为 0。 
表 17-2 SPARC 通用 寄存 器 













固定 的 全 局 寄存 器 ， 不 在 栈 中 
输出 参数 ， 在 栈 中 
局 部 寄存 器 ， 在 栈 中 
输入 参数 ， 在 栈 中 





SPARC 机 咒 组 织 寄存 器 窗口 使 得 调用 程序 的 物理 寄存 器 00 ~ 07 与 被 调用 程序 的 i0 ~ 这 指 
向 相同 的 寄存 器 。 图 17-1 显示 了 上 返回 之 前 各 个 寄存 器 窗口 的 状态 : 


main() { fO; } 
fO { return; } 


global g0 
global g7 


全 局 寄存 器 








main 


i0 | main 的 寄存 器 窗口 






main i7 
main 10 
main 17 
main 00 f i01f 的 寄存 器 窗口 
k + 
main o7|f i7 
f 10 
f 17 


图 17-1 main JAA f 


SPARC 包括 32 个 通用 寄存 器 。 但 是 由 于 g0 ~ g7 不 能 用 于 栈 ， 所 以 每 次 调用 只 用 到 16 个 
通用 寄存 器 。 阴 影 表 示 调 用 程序 的 物理 寄存 器 00 ~ 07 与 被 调用 程序 的 i0 ~ i7 相同 。 

SPARC 接口 程序 progend 不 起 作用 。progbeg 分 析 与 目标 机 器 相关 的 编译 选项 -p 和 -pg, lce 
以 此 为 SPARC 的 性 能 分 析 工 具 生 成 代码 ， 本 书 对 此 不 做 描述 。progbeg 也 初始 化 用 于 描述 寄存 硕 
组 的 结构 。 

(SPARC functions 364) 三 3 363 


static void progbeg(argc, argv) int argc; char *argv[]; { 
int i; 







Ps 
Q 
© 





(shared progbeg 290) 

(parse SPARC flags) 

(initialize SPARC register structures 365) 
} 


progbeg 用 数组 greg 的 每 个 元 素描 述 一 个 通用 寄存 器 : 


SPARC 代码 的 生成 365 


(SPARC data 365)= 365 362 
static Symbol greg[32]; 
static Symbol *oreg = &greg[8], *ireg = &greg[24]; 


与 表 17-2 相应 的 初始 化 代码 为 : 
(initialize SPARC register structures 365 )= 365 364 
for (i = 0; i < 8; i++) { 
greg[i + 0] = mkreg(stringf("g%d", i), i + 0, 1, IREG); 
greg[i + 8] = mkreg(stringf("ox%d", i), i + 8, 1, IREG); 
greg[i + 16] = mkreg(stringf("I%d", i), i + 16, 1, IREG); 
greg[i + 24] = mkreg(stringf("ixd", i), i + 24, 1, IREG); 


} 
SPARC 机 器 还 有 32 个 32 位 浮 点 寄存 器 ， 它 们 在 汇编 语言 中 标识 为 和 ~ £31, LEAP ia 
在 通用 寄存 器 栈 中 。 偶 -- 奇 寄存 器 对 可 以 用 作 双 精度 浮 点 寄存 器 。progbeg 用 数组 freg 的 每 个 元 
素 表示 一 个 单 精 度 浮 点 寄存 器 ， 数 组 freg2 的 每 个 偶数 元 素 表示 一 个 双 精 度 浮 点 寄存 器 : 


(SPARC data 365)+= 365 381 362 
static Symbol freg[32] ，freg2[32] ; 


(initialize SPARC register structures 365) 十 三 365 365 364 
for Ci = 0; i < 32; i++) 
freg[i] = mkreg("%d", i, 1, FREG); 
for Ci = 0; 7 < 31; 1 += 2) 
freg2[i] = mkreg("X%d", i, 3, FREG); 


rmap 存储 通配符 ， 这 些 通 配 符 标 识 每 种 数据 类 型 使 用 的 默认 寄存 天 类 : 


(initialize ‘SPARC register structures 365) += 365 3 364 
rmap[C] = rmap[S] = rmap[P] = rmap[B] = rmap[U] = rmap[I] = 
mkwi Idcard(greg) ; 


rmap[F] = mkwildcard(freg); 
rmap[D] = mkwildcard(freg2); 
g0 ~ g7, i6 ~ i7, 00K 06 ~ 07 不 用 于 存放 一 般 变量 和 临时 变量 。 调 用 约定 规定 调用 过 程 
不 保存 g0 ~ g7。o6 保存 栈 指 针 ， 也 称 为 sp。i6 保存 帧 指针 ， 也 称 为 外 。 每 个 调用 程序 都 把 返 
回 地 址 放 和 人 o7， 在 被 调用 程序 里 对 应 的 是 i7 ( 见 图 17-1 )。 每 个 函数 的 返回 值 都 存 人 i0， 从 调用 
程序 来 看 为 o00。 一 个 例 程 调用 其 他 例 程 时 总 是 假设 被 调用 程序 会 破坏 o0 ~ o7。 浮 点 值 通过 ff 或 
f0-f1 寄存 器 对 返回 。 
lee 将 临时 变量 存 人 其 余 的 通用 寄存 器 i0 ~ i5, 10 ~ 17 和 ol ~ o5 中 : 


(initialize SPARC register Structures365) 二 三 365 365 364 
tmask[IREG] = Ox3fff3e00; 


寄存 器 变量 只 能 使 用 这 些 寄存 器 中 的 一 半 ， 即 14 ~ 17 和 i0 ~ i5: 


(initialize SPARC register structures 365 ) += 365 366 364 
vmask[IREG] = 0x3ff00000; 


在 第 16 章 曾 提 到 tmask 和 vmask, tmask 标识 的 寄存 器 存储 计算 表达 式 过 程 中 产生 的 临时 变 


量 ，vmask 标识 的 寄存 器 存储 寄存 器 变量 。 对 于 临时 变量 和 寄存 器 变量 ， 在 一 定 程度 上 可 不 做 区 
分 。 但 一 般 情况 下 两 个 集合 是 互 斥 的 : 存储 寄存 器 变量 的 寄存 器 在 例 程 的 函数 头 代码 溢出 ， 这 


366 Z17# 


样 可 避免 所 有 的 调用 点 都 溢出 活跃 的 寄存 器 变量 ; 存储 临时 变量 的 寄存 器 可 在 调用 点 溢出 ， 因 为 
活跃 的 临时 变量 为 数 不 多 ， 寄 存 器 分 配器 很 容易 就 能 识别 出 它们 。 在 SPARC 结构 的 机 器 中 ， 当 
进入 一 个 例 程 时 ， 寄 存 器 栈 会 自动 保存 许多 寄存 器 ， 所 以 最 好 是 允许 临时 变量 可 以 存储 在 所 有 
tmask 标识 的 寄存 器 中 。 我 们 将 寄存 器 变量 占用 的 寄存 器 数 限制 在 临时 变量 可 用 的 寄存 器 数 的 一 
半 左 右 ， 是 因为 寄存 器 变量 的 第 一 次 改写 都 发 生 在 寄存 器 中 ， 所 以 它们 占用 的 寄存 器 数目 不 宜 太 
少 ; 而 另 一 方面 ， 如 果 给 临时 变量 留 下 的 可 用 寄存 器 太 少 ， 则 又 可 能 引发 大 量 游 出 或 者 完全 破坏 
寄存 器 分 配 需 。 
调用 约定 规定 调用 过 程 中 不 保存 浮 点 寄存 器 ， 这 些 寄存 器 仅 用 于 存储 临时 变量 : 


(initialize SPARC register structures 365)+= 365 364 
tmask[FREG] = ~(unsigned)0; 
vmask[FREG] = 0; 


target 调用 setreg 对 需要 特定 寄存 器 的 节点 进行 标记 ， 调 用 rtarget 对 需要 子 节点 存放 在 特定 
寄存 器 中 的 节点 进行 标记 : 
(SPARC functions 364 ) 十 三 464 366 363 
static void target(p) Node p; { 
switch (p->op) { 
(SPARC target 370) 


} 
} 


如 果 某 条 指令 将 改写 寄存 器 ，clobber 会 先 调 用 spill 把 当前 寄存 器 保存 起 来 ， 以 后 再 恢复 原 值 : 


(SPARC functions 364)+= 366 367 363 
static void clobber(p) Node p; { z 
switch (p->op) { 
(SPARC clobber 373 ) 
} 
} 


我 们 将 在 下 一 节 介 绍 有 关 target 和 clobber 的 case 分 支 处 理 及 相关 指令 。 
17.2 ”指令 的 选取 
K 17-3 总 结 了 SPARC 代码 生成 器 的 Iburg 规范 中 出 现 的 非 终 结 符 。 此 表 概 括 了 lee 的 树 文法 


的 组 织 。 
表 17-3 SPARC 的 非 终结 符 


名 字 匹配 对 象 

addr 针对 内 存 读 写 指令 的 地 址 计算 

addrg ADDRG 节点 

base addr 减 去 (寄存 器 + 寄存器 ) 地址 模式 
call call 指令 的 操作 数 

con 常量 

conl3 寄存 器 和 常量 ( 取 带 符号 的 13 位 ) 

re 寄存 器 和 常量 

reg 计算 结果 在 寄存 器 中 的 运算 

stk 局 部 变量 和 形式 参数 的 地 址 

stk13 局 部 变量 和 形式 参数 的 地 址 ( 取 带 符号 的 13 位 ) 


stmt 副作用 产生 的 运算 


SPARC RZB KI E A 367 


SPARC 的 汇编 语言 中 ，% 的 作用 与 lcc 的 (用 于 模板 转 义 字符 ) 不 同 。 例 如 伪 指 令 set， 它 的 
作用 是 将 寄存 器 设置 为 整数 常量 或 地 址 ， 所 以 ADDRGP 的 规则 是 : 

(SPARC rules 367)= 367 363 

reg: ADDRGP “set %a,%%%c\n" 1 

模板 子 串 %% 产生 一 个 %， 模 板子 串 %c 产 生 目 的 寄存 器 的 名 字 ， 所 以 模式 子 串 %%%c 指示 
代码 产生 器 在 所 生成 的 代码 中 的 寄存 器 名 字 前 加 上 百 分 号 。 这 种 做 法 并 不 可 取 ， 但 它 与 print 和 
printf 一 致 ， 如 果 我 们 选择 了 不 同 的 转 义 符 ， 在 其 他 目标 机 器 上 可 能 需要 额外 的 处 理 。 

SPARC 的 指令 若 含有 立即 数 域 ， 则 存储 一 个 有 符号 的 13 位 常量 ， 所 以 一 些 指令 使 用 与 目标 
机 器 相关 的 代价 函数 imm， 如 果 p 的 常量 值 能 够 放 入 13 位 的 常量 中 ，imm 返回 0， 否则 返回 一 
个 较 大 值 : 


(SP4RC functions 364 ) 十 三 366 373 363 
static int imm(p) Node p; { 
return range(p, -4096, 4095); 
} 


例如 ， 假 设 能 用 13 位 表示 ADDRFP 和 ADDRLP 节点 中 的 有 符号 偏 移 量 ， 那 么 用 一 条 指令 就 能 
把 地 址 存 人 寄存 器 : 


(SPARC rules 367) += 367 367 363 
stk13: ADDRFP "%a" imm(a) 
stk13: ADDRLP “Xa” imm(a) 


reg: stkl3 “add %0,%*fp,X*%c\n" 1 
否则 ， 必 须 花费 多 条 指令 : 


(SPARC rules 367) += 367 367 363 
stk: ADDRFP "set %a,%%%c\n" 2 
stk: ADDRLP "set %a,%%%c\n" 2 
reg: ADDRFP “set %a,%%%c\nadd %%%c ,%%fp,%%%c\n" 3 
reg: ADDRLP “set %a,%%%c\nadd %%%c,%%fp,%%%c\n" 3 


如 果 某 个 常量 不 能 由 一 条 指令 载 人 ， 则 伪 指 令 set 生成 两 条 指令 ; 如 果 一 条 指令 可 以 载 人 ， 那 么 
交 由 stk13 处 理 。 前 一 章 MIPS 的 代码 生成 器 已 经 用 到 这 种 方法 ， 只 是 MIPS 的 汇编 程序 彻底 隐 


藏 了 常量 大 小 的 检测 FE SPARC 中 最 好 也 使 用 这 个 功能 。 但 是 SPARC 的 汇编 程序 将 该 问题 的 一 
部 分 留 给 了 程序 员 或 编译 器 处 理 ， 因 此 我 们 也 没有 其 他 选择 。 


上 述 4 个 规则 看 起 来 与 下 面 的 相当 : 
stk: ADDRFP "set %a,%%%c\n" 2 
stk: ADDRLP “set %a,%%%c\n" 2 


reg: stk “add %0,%%fp,%%%c\n" 1 


但 上 面 较 短 的 规则 会 出 现 错误 ， 原因 是 它们 导致 函数 reduce 在 一 个 x.inst 中 存储 了 两 个 不 同 的 
值 。 回 顾 前 面 的 内 容 ， 如 果 节 点 有 标识 匹配 规则 的 非 终 结 符 ， 那 么 x.inst 作为 一 条 指令 记录 该 非 
终结 符 。 上 述 较 短 规则 的 问题 是 ，ADDRLP 或 ADDRFP 的 x.inst 域 不 能 标记 stk 和 reg. 

非 终 结 符 con13 匹配 较 小 的 整 型 常量 : 


(SPARC rules 367) += 367 368 363 
con13: CNSTC “%a” imm(a) 
coni3: CNSTI "%a" imm(a) 
conl3: CNSTP "%a” imm(a) 


368 RATE 


conl3: CNSTS "Xa" imm(a) 
con13: CNSTU “%a"™ imm(a) 


指令 读 写 存 储 器 单元 时 首先 进行 地 址 计算 ， 将 某 个 寄存 器 值 与 一 个 13 位 有 符号 常量 相 加 形成 
地 址 : 


(SPARC rules 367)+= 367 368 363 
base: ADDI(reg,con13) "%*%0+%1" 
base: ADDP(reg,con13) "%%%0+%1" 
base: ADDU(reg,con13) “%%%0+%1" 


WR ASHE 0, 或 者 寄存 器 是 g0， 那 么 相 加 将 退化 成 简单 的 间接 或 直接 寻 址 : 


(SPARC rules 367)+= 368 368 363 
base: reg "%%%0" 
base: con13 "%0" 


如 果 寄 存 器 存储 的 是 帧 指针 ， 那 么 相 加 将 产生 形 参 的 地 址 或 局 部 变量 的 地 址 : 


(SPARC rules 367) += 368 368 363 
base: stk13 "XXfp+x0" 


HE A ESF FF a AO LAJE REHE : 


(SPARC rules 367) += 368 368 363 
addr: base "%0" 
addr: ADDI(reg,reg) "“%%%0+%%%1" 
addr: ADDP(reg,reg) “"%%%0+X%%%1" 
addr: ADDU(reg,reg) "%%%0+%X%1" 


addr: stk "LAF p+XX%O" 
大 多 数 存 取 操作 使 用 上 述 寻 址 模式 : 
(SPARC rules 367)+= 368 368 363 

reg: INDIRC(addr) "ldsb [%0] ,%%%c\n" 

reg: INDIRS(addr) “Tdsh [%0] ,%%c\n" 

reg: INDIRI(addr) "Id [%0] , %x%c\n” 

reg: INDIRP(Caddr) "Id [%0] ,%%%c\n" 

reg: INDIRF(addr) "Id [%0] ,4%f%c\n" 


stmt: ASGNC(addr,reg) "stb %%%1,[%0)\n" 
stmt: ASGNS(addr,reg) “sth %¥%1,[%0]\n" 
stmt: ASGNI(addr,reg) "st %%%1,[%0]\n" 
stmt: ASGNP(addr,reg) “st %%%1,[%0]\n" 
stmt: ASGNF(addr,reg) “st %%f%1,[%0]\n" 


Idd 和 std 指令 完成 双 精 度数 的 存 取 ， 存 取 地 址 必须 是 8 的 倍数 。 由 于 调用 约定 只 保证 参数 和 全 局 
变量 的 地 址 为 4 的 倍数 ， 所 以 Idd 和 std 只 能 操作 局 部 变量 : 


(SPARC rules 367)+= 368 369 363 
addr1: AODRLP "KK Fp+Ka" imm(a) 


PREP HE REPRE PR 


reg: INDIRD(addr1) “Idd [%0], %%f%c\n" 1 
stmt: ASGND(addrl,reg) “std %%f%1,[%X0]\n" 1 
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伪 指 令 1d2 和 st2 生成 指令 对 存 取 按 4 字 节 对 齐 的 双 精 度数 。 当 地 址 由 两 个 寄存 器 的 值 相 加 
形成 时 ， 某 些 SPARC 的 汇编 程序 可 能 产生 有 洪 在 错误 的 代码 。 所 以 调用 规则 在 这 些 伪 指令 中 加 
入 非 终结 符 base， 它 的 作用 是 略 过 “寄存 器 + 寄存 器 ”类 型 的 寻 址 : 

(SPARC rules 367) += 368 369 363 


reg: INDIRD(base) "1d2 [%0],%%F¥c\n" 2 
stmt: ASGND(base,reg) “st2 **f%1,[%0]\n" 2 


对 于 汇编 程序 的 这 个 小 问题 ， 定 义 了 base 和 addr 的 规则 可 以 合 起 来 定义 一 个 单独 的 非 终结 符 。 

当 没 有 空闲 的 可 分 配 寄存 器 时 ， 滋 出 程序 必须 生成 代码 存储 其 中 一 个 寄存 器 。 当 偏 移 量 不 能 
BLA SPARC 的 立即 数 域 时 ，ASGN 规则 生成 多 条 指令 ， 这 些 指令 需要 一 个 寄存 器 用 来 通信 ， 这 
样 违 反 了 溢出 程序 的 假设 lec 解决 这 个 问题 的 方法 是 在 ASGN 规则 中 加 入 第 二 次 复制 。 第 二 次 
复制 时 ， 用 不 可 分 配 的 寄存 器 g1 帮助 保存 局 部 变量 ， 因 为 lce 只 溢出 局 部 变量 ,而且 局 部 变量 不 
是 立即 寻 址 的 。 


(SPARC rules 367) += 369 369 363 
spill: ADDRLP "%a" !imm(a) 


stmt: ASGNC(spill,reg) “set %0,%%g1\nstb %%%1, [X%fp+%%g1}\n" 
stmt: ASGNS(spill,reg) "set %0,%%gl\nsth %%%1, [X%fp+%%g1]\n" 
stmt: ASGNI(spill,reg) "set %0,%%gl\nst %%%1, [XXfp+%%qg1]\n" 
stmt: ASGNP(spill,reg) “set %0,%%g1l\nst %X%%1, [%Xfp+X%g1]}\n" 
stmt: ASGNF(spill,reg) “set %0,%%gl\nst %%f%1, [X%fp+%%g1]\n" 
stmt: ASGND(spill,reg) “set %0,%%g1\nstd %%f%]1, [X%fp+%%g1]\n" 


规则 有 一 个 虚设 的 代价 底线 值 0， 这 样 一 旦 匹配 就 会 成 功 ， 但 这 种 情况 并 不 常见 。 这 些 规则 也 适 
用 于 存储 没有 溢出 的 寄存 器 ， 这 些 情况 下 使 用 0 值 是 无 害 的 。 人 参见 练习 17.7。 

ldsb 和 ldsh 扩展 载 人 单元 的 符号 位 ， 它 们 以 最 低 代 价 实现 了 CVCI 和 CVSI。ldub 和 lduh 清 
除 最 高 位 ， 并 以 最 低 代价 实现 了 CVCU 和 CVSU. 


(SPARC rules 367)+= 369 369 363 
reg: CVCICINDIRC(addr)) “Idsb [%0] ,%%%c\n” 
reg: CVSICINDIRS(addr)) “ldsh [%0] ,%¥%c\n" 
reg: CVCUCINDIRC(addr)) “Idub [%0] ,%%%c\n" 
reg: CVSUCINDIRS(addr)) "lduh [%0] ,%¥%c\n" 


整 型 变换 中 ， 在 转换 后 的 类 型 不 会 加 宽 的 情况 下 也 生成 “寄存 器 - 寄存 器 ”移动 指令 。 在 第 
16 章 中 曾 提 到 ，move 指令 返回 1， 并 标记 可 以 被 requate 和 moveself 优化 的 节点 。 


PRR 


(SPARC rules 367) += 369 330 363 
reg: CVIC(reg) "mov %%%0,%%%c\n" move(a) 
reg: CVISC(reg) “mov %%%0,%%%c\n" move(a) 
reg: CVIUCreg) “mov %%%0,%%%c\n" move(a) 
reg: CVPUCreg) “mov %%%0,%X%c\n" move(a) 
reg: CVUC(reg) “mov %¥*%0,%X%c\n" move(a) 
reg: CVUI(reg) “mov %%%0,%%%c\n" move(a) 
reg: CVUP(reg) “mov %%%0,%%%c\n" move(a) 
reg: CVUS(reg) “mov %%%0 ,%%%c\n" move(a) 


如 果 节 点 没有 定位 到 特定 寄存 器 ， 那 么 下 面 的 规则 不 生成 任何 指令 : 
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(SPARC rules 367) += 369 370 363 
reg: CVIC(reg) “%0" notarget(a) 
reg: CVIS(reg) "XO" notarget(a) 
reg: CVUC(reg) “%0" notarget(a) 
req: CVUS(reg) "“%0" notarget(a) 


”第 二 个 列表 看 起 来 比 前 面 的 得 了 许多 ， 实 际 上 加 入 14.7 节 中 与 目标 机 器 相关 的 段 <shared rules> 
就 相同 了 。 
LOAD 也 生成 寄存 器 副本 : 
(SPARC rules367)+= 370 330 363 
reg: LOADC(reg) “mov %%%0,%*%c\n" move(a) 
reg: LOADI(reg) “mov %%%0,%%%c\n" move(a) 
reg: LOADP(reg) “mov %%%0,%6%c\n" move(a) 


reg: LOADS(reg) “mov %%%0,%%%c\n" move(a) 
reg: LOADU(reg) “mov %%%0,%%%c\n" move(a) 


如 果 这 些 规 则 也 能 共享 就 很 好 了 ， 但 模板 是 与 机 器 相关 的 。 
寄存 器 g0 由 硬件 设 定 为 0， 所 以 值 为 0 的 整 型 节点 CNST 不 生成 代码 : 
(SPARC rules 367) += 370 370 363 
reg: CNSTC "# reg\n" range(a, 0 
reg: CNSTI "# reg\n" range(a, 0, 0) 
reg: CNSTP "# reg\n" range(a, 0 
reg: CNSTS "# reg\n" range(a, 0 
reg: CNSTU “# reg\n" range(a, 0, 0) 
前 面 曾 提 到 ， 在 计算 代价 表达 式 的 值 时 ，a 表示 被 标识 的 节点 ， 但 在 这 里 ，a 表示 常量 值 ; 代码 
判断 a 是 否 为 0， 如 果 为 0，target 为 这 些 节 点 返回 g0: 


{SPARC target 370 ) 三 372 366 
case CNSTC: case CNSTI: case CNSTS: case CNSTU: case CNSTP: 
if (range(p, 0, 0) == 0) { 
setreg(p, greg[0]); 
p->x. registered = 1; 


break; 


对 寄存 器 20 进行 分 配 是 没有 意义 的 ， 所 以 target 标识 节点 以 避免 分 配 g0。 

set 伪 指 令 能 把 任何 常量 载 人 寄存 器 : 

(SPARC rules 367)+= 370 330 363 

reg: con “set %0,%%%c\n" 1 

如 果 常 量 可 以 用 13 位 来 表示 ， 则 set 只 生成 一 条 指令 ， 和 否则 生成 两 条 。 这 些 细节 都 由 汇编 程序 完 
成 ， ,我们 无 须 关 心 。 

二 元 整数 运算 指令 的 第 二 操作 数 可 以 是 寄存 器 或 13 位 的 常量 : 

(SPARC rules 367) += 370 371 363 


rc: conl3 "%0" 
rc: reg "963660" 


但 指令 的 第 一 操作 数 和 结果 必须 是 寄存 器 : 
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(SPARC rules 367) += $70 37) 363 
reg: ADDI(reqg,rc) "add *%%%0,%1,%%%c\n" 1 
reg: ADDP(reg,rc) "add %%%0,%1,%%%c\n" 1 
reg: ADDUC(reg,rc) “add %%%0, %1, %%%c\n" 1 
reg: BANDU(reg,rc) "and %%%0,%1,%%%c\n" 1 
reg: BORUÇreg, rc) “or %%%0 , %1 ,%%%c\n" 1 
reg: BXORU(reg,rc) "xor %%%0,%1,%¥%c\n" 1 
reg: SUBI(Creg,rc) “sub %%%0, %1, %%%c\n"” 1 
reg: SUBP(reg,rc) "sub %%%0, %1, %%%c\n" 1 
reg: SUBU(reg,rc) "sub %%%0,%1,%%%c\n" 1 

移 位 指令 只 接受 0~31 之 间 的 常量 作为 第 二 操作 数 : 
(SPARC rules 367) += 371 371 363 


rc5: CNSTI "“%a" range(a, 0, 31) 
rc5: reg "%X%O" 
第 一 操作 数 和 结果 必须 是 寄存 器 : 


(SPARC rules 367)+= MU 363 
reg: LSHI(reg,rc5) "sll %%%0,%1,%%%c\n" 1 
reg: LSHUCreg,rc5) “s11 %%%0,%1,%%%c\n" 1 
reg: RSHI(reg,rc5) “sra %%%0,%1,%%%c\n" 1 
reg: RSHU(reg,rc5) “srl %%%0,%1,%%%c\n" 1 


3 种 布尔 操作 都 有 变 体形 式 补 全 第 二 操作 数 : 


(SPARC rules 367) 十 三 37 
reg: BANDUCreg,BCOMU(rc)) “andn %%%0,%1,%%%c\n" 1 
reg: BORU(reg, BCOMU(rc)) "orn %%%0,%1,%%%c\n" 1 
reg: BXORUCreg,BCOMU(rc)) “xnor %xKO,%1,%%Kc\n" 1 


一 元 操作 只 能 使 用 寄存 器 作为 操作 数 : 


(SPARC rules 367)+= FUI 363 
reg: NEGI(reg) “neg %%%0,%%%c\n" 1 
reg: BCOMU(reg) “not %%%0,%¥%%c\n" 1 


对 有 符号 字符 和 有 符号 短 整 数 的 加 宽 转 换 ， 可 以 通过 算术 左 移 和 右 移 实现 符号 位 的 扩展 : 


(SPARC rules 367) += 371 371 363 
reg: CVCI(reg) “s11 %%%0,24,%%%c; sra XKC ,24 ,KKKEC\n 2 
reg: CVSI(reg) "sll %%%0,16,%%%c; sra %W%c,16,%%%c\n" 2 


无 符号 数 的 转换 需要 使 用 and 指令 清除 高 位 : 


(SPARC rules 367 ) + 三 分 372 363 

reg: CVCU(reg) "and %%%0,Oxff,%%%c\n" 1 

reg: CVSU(reg) “set Oxffff,%%g1; and %%%0 ,%%g1,%%%c\n" 2 
CVSU 需要 一 个 16 位 掩 码 ， 它 与 CVCU 不 同 。 

SPARC 结构 中 ， 所 有 的 无 条 件 跳 转 和 条 件 分 支 都 用 到 “ 单 指令 ”延迟 槽 (delay slot)。 跳 转 

和 分 支 后 的 指令 ( 称 这 条 指令 在 延迟 柳 中 ) 总 会 执行 ， 就 像 它 们 在 跳 转 和 转移 之 前 就 已 经 执行 了 
一 样 。 就 目前 而 言 ， 可 暂时 用 无 害 的 nop 填充 每 一 个 延迟 槽 。ba 指令 处 理 常 量 地 址 ;, 余下 的 由 
jmp 指令 完成 ， 即 jmp 处 理 switch 语句 的 目标 地 址 。 
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(SPARC rules 367) += wn ap 
addrg: ADDRGP “$a” 
stmt: JUMPV(addrg) "ba %0; nop\n” 2 
stmt: JUMPV(addr) “jmp %0; nop\n" 2 
stmt: LABELV "%a:\n" 

整 型 关系 的 比较 在 寄存 器 间或 是 寄存 器 与 常量 间 进 行 : 

(SPARC rules 367) += 372 332 
stmt: EQI(reg,rc) "cmp %%%0,%1; be %a; nop\n” 3 
stmt: GEI(reg,rc) "cmp %%%0,%1; bge %a; nopNn” 3 
stmt: GEU(reg,rc) “cmp %%%0,%1; bgeu %a; nop\n" 3 
stmt: GTI(reg,rc) "cmp %%%0,%1; bg %a; nop\n" 3 
stmt: GTU(reg,rc) “cmp %%%0,%1; bgu %a; nop\n” 3 
stmt: LET(reg,rc) “cmp %%%0,%1; ble %a; nop\n" 3 
stmt: LEU(reg,rc) “cmp %%%0,%1; bleu %a; nop\n" 3 
stmt: LTI(reg,rc) "cmp %%%0,%1; bl %a; nop\n" 3 
stmt: LTUCreg,rc) “cmp %%%0,%1; blu %a; nop\n" 3 
stmt: NEI(reg,rc) "cmp %%%0,%1; bne %a; nop\n" 3 

call 指令 处 理 常 量 地 址 或 者 某 个 已 计算 的 地 址 ; 

(SPARC rules 367) += 六 372 
call: ADDRGP "%a" 
call: addr "%0" 
reg: CALLD(call) “call %0; nop\n" 2 
reg: CALLF(call) “call %0; nop\n" 2 
reg: CALLI(call) “call %0; nop\n" 2 
stmt: CALLV(cal1) "call %0; nop\n" 2 
stmt: CALLB(call,reg) “call %0; st %¥%1,[%%sp+64]\n" 2 


CALLB 指令 将 返回 块 的 地 址 存 人 栈 ， 传 送 地 址 。 存 储 指令 占用 延迟 槽 。 
编译 前 端 为 每 个 RET 节点 后 增加 一 个 转移 到 程序 尾 代码 的 跳 转 ， 
码 ， 只 用 来 帮助 后 端 定位 返回 寄存 器 : 


(SPARC rules 367)+= 


stmt: 
stmt: 
stmt: 


函数 把 返回 值 存 人 £0. £0 


RETD (reg) 
RETFCreg) 
RETICreg) 


"# ret\n" 
"# ret\n” 
"# ret\n" 


(SPARC target 370)+= 


case 
case 
case 
case 
case 
case 


case 


CALLD: setreg(p, freg2[0]); 
CALLF: setreg(p, freg[0]); 


CALLI: 


CALLV: setreg(p, oreg[0]); 


1 
1 
1 


a 
372 373 
vw 


RETD: rtarget(p, 0, freg2[0]); break; 
RETF: rtarget(p, 0, freg[0]); break; 


RETI 分 支 标 记 节点 以 防 为 其 分 配 寄 存 器 ， 避 免 产 生 不 一 致 
(SPARC target 370)+= 


RETI: 


a 
370 372 
v 
break; 
break; 
break; 
a 
372 373 
v 
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363 
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所 以 RET 节点 不 生成 代 


363 


~ f1 00 (被 调用 程序 将 o0 视 为 i0)。 target 遵循 这 个 约定 : 


366 


366 
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rtarget(p, 0, ireg[0]); 

p->kids[0]->x.registered = 1; 

break; 
如 果 某 个 例 程 的 第 一 参数 是 整 型 则 驻 留 在 i0。 如 果 某 个 函数 返回 值 是 整数 ，i0 也 保存 这 个 函数 返 
回 值 ,lcce 的 寄存 器 分 配器 溢出 临时 变量 但 不 溢出 形 参 ， 如 果 请 求 它 分 配 i 给 RETI， 分 配 将 失败 ; 
而 且 ， 形 参 在 返回 时 就 已 清除 ， 所 以 我 们 仅 标记 该 节点 已 分 配 ， 这样 就 能 将 i0 分 给 RETI T, F 
时 阻止 了 寄存 器 分 配器 的 任何 操作 ， 包 括 溢出 形 参 。 

在 调用 时 ， 寄 存 器 栈 能 自动 存储 并 恢复 通用 寄存 器 ， 所 以 只 有 浮 点 寄存 器 〈 除 去 返回 寄存 器 ) 
需要 显 式 地 存储 和 恢复 : 


(SPARC clobber 373 ) 三 375 366 

case CALLB: case CALLD: case CALLF: case CALLI: 
spill(~Cunsigned)3, FREG, p); 
break; 

case CALLV: 
spill (oreg[0)->x.regnode->mask, IREG, p); 
spill(~Cunsigned)3, FREG, p); 
break; 


在 第 16 章 提 到 ， 给 节点 分 配 寄 存 器 后 ，ralloc 将 调用 目标 机 器 的 clobber。 
doarg 将 一 个 整 型 常量 符号 存储 到 每 个 ARG 节点 的 syms[RX] 域 ， 这 个 整 型 常量 等 于 参数 偏 
移 量 除 以 4。 对 大 多 数 参数 而 言 ， 该 整 型 常量 命名 了 输出 o- 寄存 器 : 
(SPARC functions 364) += 367 374 363 
static void doarg(p) Node p; { 


p->syms[RX} = intconst(mkactual(4, 
p->syms[(0]->u.c.v.i}/4); 


ARG 节点 的 执行 带 有 副作用 ， 通 常 并 不 使 用 syms[RX]。 但 是 SPARC 的 调用 约定 是 通过 寄存 器 
定位 和 赋值 实现 ARG 节点 的 ， 所 以 使 用 RX 很 自然 。 
对 于 输出 参数 ， 寄 存 器 定位 程序 计算 参数 的 头 24 个 字 节 ， 并 将 它们 存 人 寄存 器 。 实 现 过 程 
是 target 调用 rtarget 将 子 节点 存 人 相应 的 o- 寄存 器 ， 然 后 将 ARG 改变 为 读 取 同 一 个 寄存 器 的 
LOAD, emit 和 moveself 可 对 该 过 程 进行 优化 : 
(SPARC target 370)+= 372 336 366 
case ARGI: case ARGP: 
if (p->syms[RX]->u.c.v.i < 6) { 
rtarget(p, 0, oreg[p->syms(RX]->u.c.v.i]); 
p->op = LOAD+optype(p->op) ; 
setreg(p, oreg[{p->syms[RX])->u.c.v.i]); 


break; 


若 调用 所 带 的 参数 过 多 ， 则 必须 将 多 出 的 一 部 分 通过 存储 器 传递 。 为 了 实现 通过 存储 器 传递 
参数 ， 汇 编程 序 模板 撤销 了 除法 (存储 的 是 参数 偏 移 量 除 4 )， 并 加 上 68: 
(SPARC rules 367) += F2 374 363 


stmt: ARGI(reg) “st %%%0, [%%sp+4*%c+68]\n” 1 
stmt: ARGP(reg) “st %¥%0, [XX¥sp+4*%c+68]\n" 1 


374 HATS 


sp 指向 16 个 字 单 元 (64 字 节 )， 若 当前 的 寄存 器 窗口 已 被 耗 尽 而 必须 溢出 寄存 器 ; 这 时 操作 系统 
将 用 上 面 的 16 字 单 元 来 保存 例 程 的 i- 寄存 器 和 1- 寄存 器 。 下 一 个 字 预 留 作为 返回 块 结构 的 地 址 
(如 果 有 的 话 )。 再 将 它 后 面 的 字 预 留 作为 输出 参数 ， 即 使 通过 i0 ~ 5 传递 的 参数 在 这 里 也 有 预 
留 空 间 。 所 以 参数 偏 移 量 为 n 的 参数 是 %sp+n+68， 这 正好 可 以 解释 上 述 模板 的 含义 。 图 17-2 显 
示 了 SPARC 的 帧 。 





高 地 址 
当前 印 caller 的 帧 
caller 的 sp 
局 部 变量 和 临时 变量 变量 
输出 参数 
(不 在 o0 ~ 05 中 ) 变量 
保存 o0 ~ o5 的 空间 2 
(如 有 必要 ) = 
返回 值 的 结构 的 地 址 “| 1 字 
保存 io ~ 这 和 10 ~ 17 16 字 
的 空间 (如 有 必要 ) 
当前 sp 
callee 的 aa iar 


图 17-2 SPARC 帧 布局 


可 变 参数 例 程 的 代码 只 能 使 用 偏 移 量 为 20 的 单元 ， 所 以 浮 点 参数 也 必须 通过 00 ~ 05 传递 。 
注意 对 比 MIPS 调用 约定 的 相关 部 分 。lec 假设 浮 点 操作 码 产生 浮 点 寄存 器 ， 所 以 一 棵 树 不 能 将 没 
有 转换 的 浮 点 值 存 人 整 型 寄存 器 。emit2 必须 处 理 这 个 特殊 的 ARG: 


(SPARC rules367 )+= 373 375 363 
stmt: ARGD(reg) “# ARGD\n“ 1 
stmt: ARGF(reg) “# ARGF\n" 1 


(SPARC functions 364) += 373 398° 363 
static void emit2(p) Node p; { 
switch (p->op) { 
(SPARC emi t2 374) 
} 
} 


ARGF 必须 从 浮 点 寄存 器 中 取出 一 个 值 并 放 到 o- 寄存 器 或 栈 中 。 每 个 输出 参数 都 预 留 一 个 
栈 槽 ， 而 从 浮 点 寄存 器 到 通用 寄存 器 的 唯一 路 径 就 是 经 过 存储 器 ， 所 以 emit2 把 浮 点 寄存 器 复制 
到 栈 中 ， 然 后 再 从 栈 模 读 取 到 o- 寄存 器 ， 除 非 我 们 超过 了 05: 

(SPARC emit2 374 ) 三 Ys 374 

case ARGF: { 


int n = p->syms[RX]->u.c.v.i; 
print("st %%f%d, [X%sp+4*%d+68]\n", 
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getregnum(p->x.kids{0]), n); 
if (n <= 5) 

printC"ld (%%sp+4*%d+68] ,¥%oX%d\n", n, n); 
break; 


} 
ARGD 的 执行 情况 与 ARGF 类 似 ， 但 它 需 要 两 次 存储 和 最 多 两 次 读 取 : 


(SPARC emit2 374)+= 374 377 374 
case ARGD: { 
int n = p->syms[RX]->u.c.v.7; 
int src = getregnum(p->x.kids[0]); 
print("st %%f%d, [%%sp+4*%d+68]\n", src, n); 
print("st %%f%d, [X%sp+4*%d+68]\n", src+1, n+1); 
if (n <= 5) 
printC"ld [%%sp+4*%d+68] , ¥%o%d\n", n, n); 
if (n <= 4) 
printC"ld [%%sp+4*%d+68] ,%%o0%d\n", n+1, n+1); 
break; 
} 


如 果 一 个 双 精 度 浮 点 参数 前 有 5 个 整数 ， 那 么 将 浮 点 参数 的 前 半 部 分 存 人 05， 后 半 部 分 存 人 栈 。 
这 样 分 离 传输 双 精 度数 看 起 来 不 可 思议 ， 但 是 对 于 可 变 参数 的 例 程 只 能 这 样 处 理 ， 例 程 的 尾 代 码 
将 这 两 部 分 重新 合 起 来 。 

要 求 寄 存 器 分 配器 为 浮 点 节点 分 配 通用 寄存 器 似乎 不 很 明智 ， 所 以 clobber 调用 spill 确保 参 
数 寄存 器 中 的 所 有 活跃 值 都 在 浮 点 型 ARG 之 前 被 存储 ， 以 便 后 来 恢复 : 


(SPARC clobber 373)+= 373 376 366 
case ARGF: 
if (p->syms[2]->u.c.v.i <= 6) 
spill ((1<<(p->syms[2]}->u.c.v.i + 8)), IREG, p); 
break; 
case ARGD: 
if (p->syms[2J->u.c.v.i <= 5) 
spill((3<<(p->syms[2]->u.c.v.i + 8))&Oxff00, IREG, p); 
break; 


MIPS 代码 生成 器 避 开 了 这 一 步 ， 因 为 它 从 来 不 会 因为 其 他 目的 而 分 配 参数 寄存 器 。 但 是 对 
于 SPARC 约定 ， 若 ol ~ 05 中 没有 输出 参数 ， 它 们 将 存储 临时 变量 。 

第 一 个 SPARC 系统 没有 提供 乘法 、 除 法 和 求 余 指令 ， 所 以 标准 库 提 供 了 等 价 的 函数 。 现 在 
舍弃 这 些 系统 还 为 时 过 早 ， 所 以 lcc 设置 了 标志 mulops_calls， 并 且 在 已 经 提供 了 乘法 指令 的 新 机 
器 上 保留 这 些 函数 (参见 练习 17.1 ): 


(SPARC rules 367)+= 374 376 363 
reg: DIVI(reg,reg) “call .div,2; nop\n" 
reg: DIVU(reg,reg) “call .udiv,2; nop\n" 
reg: MODI(reg,reg) "call .rem,2; nop\n" 
reg: MODU(reg,reg) “call .urem,2; nop\n" 
reg: MULI(reg,reg) “call .mul,2; nopNn” 
reg: MULU(reg,reg) “call .umul,2; nop\n" 
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target 使 用 00 和 ol 传递 操作 数 ， 并 把 结果 放 进 00: 


(SPARC target370 )+= 73 366 
case DIVI: case MODI: case MULI: 
case DIVU: case MODU: case MULU: 
setreg(p, oreg[0]); 
rtarget(p, 0, oreg[0]); 
rtarget(p, 1, oreg[1]); 
break; 


库 函 数 只 是 清空 ol-o5， 并 不 分 配 新 的 寄存 器 窗口 : 


(SPARC clobber 373 )+= 375 366 
case DIVI: case MODI: case MULI: 
case DIVU: case MODU: case MULU: 
` spi11(0x00003e00, IREG, p); break; 


二 元 浮 点 指令 只 接受 寄存 器 : 


(SPARC rules367 )+= 75 376 363 
reg: ADDD(reg,reg) “faddd X%f%X0 ,X%f%1,%%f%c\n" 
reg: ADDF(reg,reg) "fadds X%f%0 ,%%f%1,%%f%c\n" 
reg: DIVD(reg,reg) “fdivd %X%f%0 ,X%f%1,%%f%c\n" 
reg: DIVF(reg,reg) “fdivs %X%f%0 ,X%f%1,%%f%c\n" 
reg: MULD(reg,reg) “fmu1d %%f%0,%%f%1,%%f%c\n" 
reg: MULF(reg,reg) “fmuls %%f%0 ,%%f%1,%%f%c\n“ 
reg: SUBD(reg,reg) “fsubd %%f%0 ,X%f%1,%%f%c\n" 
reg: SUBF(reg,reg) “fsubs %%f%0,%%f%1,X%f%c\n" 


大 多 数 浮 点 一 元 操作 符 都 是 类 似 的 : 


(SPARC rules 367)+= 376 376 363 
reg: NEGF(reg) "fnegs %X%f%0 ,%%f%c\n” 
reg: LOADF(reg) “fmovs %%f%0 ,%%f%c\n" 
reg: CVDF(reg) “fdtos %%f%0,%%f%c\n" 
reg: CVFD(reg) "fstod %%f%0 ,%%f%c\n" 


双 精 度数 与 整数 之 间 的 转换 各 需要 3 条 指令 ， 因 为 必要 的 转换 指令 只 使 用 浮 点 寄存 器 (即使 整 型 
操作 数 也 是 如 此 )。fdtoi 把 一 个 双 精 度数 转换 为 整数 ， 但 是 把 结果 放 在 一 个 浮 点 寄存 器 里 。CVDI 
的 父 节点 需要 一 个 通用 寄存 器 ， 所 以 模板 用 存储 器 中 的 临时 单元 把 结果 复制 到 通用 寄存 器 里 ， 这 
是 唯一 可 行 的 方法 : 

(SPARC rules 367) += 376 376 363 


reg: CVDI(reg) “fdtoi %%f%0,%%f0; st %%f0,[%%sp+64]; _ 
Id [%%sp+64],%%%c\n" 3 


CVID 的 过 程 与 CVDI 相反 : 


(SPARC rules 367) += 376 377 363 
reg: CVID(reg) “st %%%0, [X%¥sp+64]; ld [X%sp+64],%%f%c; _ 
fitod XXXKfXc ,XXKfXcNn” 3 
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上 
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CVDI 和 CVID 需要 使 用 预 留 给 被 调用 程序 的 单元 ， 被 调用 程序 用 该 单元 来 保存 返回 块 结构 的 地 
址 。 这 个 单元 只 用 在 call 指令 的 分 支 延 迟 槽 以 及 被 调用 程序 的 分 配 新 栈 桢 的 函数 头 代 码 指令 之 


间 。 而 CVDI 和 CVID 不 可 能 出 现在 这 样 的 间隔 里 。 


浮 点 比较 指令 在 分 支 之 后 有 一 个 延迟 槽 ， 比 较 之 后 也 有 一 个 延迟 槽 : 


(SPARC rules367 )+= 

rel: EQD(reg,reg) “fcmped %%f%0,X%%f%1; 
rel: EQF(reg,reg) “fcmpes %%f%0 ,%%f%1; 
rel: GED(reg,reg) “fcmped %%f%0 ,%%f%1 
rel: GEF(reg,reg) “fcmpes XKfx0 ,XXKfXK1 
rel: GTD(reg,reg) “fcmped %%f%0,%%f%1; 
rel: GTF(reg,reg) “fcmpes X%f%0 ,%%f%1; 
rel: LED(reg,reg) “fcmped %%f%0,%%f%1; 
rel: LEF(reg,reg) “fcmpes %X%f%O,XXf%L; 
rel: LTD(reg,reg) “fcmped X%f%0 ,%%f%1; 
rel; LTF(reg,reg) “fcmpes %%f%0 ,%%f%1; 
rel: NED(reg,reg) “fcmped %%f%0,%%f%1; 
rel: NEF(reg,reg) “fcmpes %%f%0 ,X%X%f%L; 
stmt: re) “%0 %a; nop\n" 4 


+ 


nop; 
nop; 
nop; 
nop; 
nop; 
nop; 
nop; 
nop; 
nop; 
nop; 
nop; 
nop; 


a 

376 377 363 
fbue" 
fbue” 
fbuge” 
fbuge" 
fbug” 
fbug" 
fbule” 
fbule" 
fbul" 
fbul" 
fbne" 
fbne" 


有 些 操作 符 不 能 由 固定 的 汇编 程序 模板 实现 ， 而 必须 通过 emit2. SPARC 结构 的 指令 不 能 将 
双 精 度 的 寄存 器 值 复制 到 另 一 个 寄存 器 内 ， 所 以 lec 为 每 个 LOADD 生成 了 两 条 单 精度 指令 : 


(SPAR 


reg: 


C rules 367) += 


LOADD(reg) "# LOADD\n" 2 


(SPARC emit2374 ) + 三 


cas 


} 


e LOADD: { 

int dst = getregnum(p); 

int src = getregnum(p->x.kids[0]); 
print( "fmovs %%f%d,%%f%#d; ", src, 


dst); 


a 
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print("fmovs %%f%d,%%f%d\n", src+1, dst+1); 


break; 


NEGD 的 做 法 与 此 类 似 。 一 条 指令 复制 第 一 个 字 并 改变 符号 位 ， 另 一 条 指令 复制 第 二 个 字 : 


(SPARC rules367 ) 十 三 


reg: 


NEGD(reg) "# NEGD\n" 2 


(SPARC emi t2374 ) 十 三 


cas 


e NEGD: { 

int dst = getregnum(p); 

int src = getregnum(p->x.kids[0]); 
print("fnegs X%f%d,%%f%d; “, src, 


dst); 


a 
377 378 363 


a 
377 348 374 


print("fmovs X%f%d,%%f%d\n", src+1, dst+1); 


break; 


378 17% 


最 后 ，emit2 调用 blkcopy 生成 代码 ， 以 复制 存储 器 块 : 


(SPARC rules367)+= 377 363 
stmt: ASGNB(reg,INDIRB(reg)) "# ASGNB\n" 


(SPARC emit2 374)+= 377 374 
case ASGNB: { 

static int tmpregs[]. = { 1, 2, 3 }; 

dalign = salign = p->syms[1]->u.c.v.i; 

blkcopy(getregnum(p->x.kids[0]), 0, 
getregnum(p->x.kids[1]), 0, 
p->syms[0]}->u.c.v.i, tmpregs); 

break; 


图 13-4 跟踪 显示 了 MIPS 机 器 的 “ 块 复制 生成 器 ”的 运行 情况 ，SPARC 的 代码 只 是 在 外 观 上 与 

MIPS 不 同 。SPARC 指令 组 没有 无 符号 数 的 存 取 指 令 ， 这 一 点 颇 有 争议 ， 因 为 图 中 的 例子 也 没 

使 用 MIPS 的 存 取 指 令 。 回 顾 前 面 的 salign、dalign 和 x.max unaligned load， 它 们 合 起 来 甚至 能 

复制 无 符号 块 ， 所 以 与 目标 机 器 相关 的 代码 可 忽略 这 种 复杂 性 。g- 寄存 器 当前 未 被 使 用 ， 因 此 

gl-g3 可 做 临时 寄存 器 。MIPS 的 代码 比较 难处 理 ， 因 为 它 的 约定 很 难 做 到 一 次 获得 大 量 寄 存 器 。 
在 SPARC 结构 中 wants argh 为 0， 所 以 emit2 省 去 了 ARGB 分 支 。 


17.3 ”函数 的 实现 


编译 前 端 调 用 local 通知 新 的 局 部 变量 。 与 其 他 目标 机 器 上 的 对 应 操作 一 样 ，SPARC 的 函数 
local 调用 askregvar 尽 可 能 地 把 局 部 变量 存 信 寄存器， 如 果 askregvar 不 能 做 到 这 一 点 ， 它 将 调用 
mkauto: 


(SPARC functions364 )+= 374 379 363 
static void local(p) Symbol p; { 
(structure return block? 379) 


(put even lightly used locals in registers 378) 
if (askregvar(p, rmap[ttob(p->type)]) == 0) 
mkauto(p) ; 


通常 情况 下 ， 除 非 前 端 估计 某 个 局 部 变量 将 使 用 3 次 以 上 ， 和 否则 它 不 会 将 该 局 部 变量 的 
sclass 设置 为 REGISTER。 这 一 规定 使 得 一 些 很 少 使 用 的 局 部 变量 仍 留 在 存储 器 中 ， 对 于 这 些 很 
少 使 用 的 局 部 变量 ， 前 端 无 法 判断 是 否 应 该 在 函数 头 代 码 中 溢出 它们 的 寄存 器 ， 以 及 在 函数 尾 代 
码 重新 载 人 。 然 而 ，SPARC 的 寄存 器 窗口 自动 为 局 部 变量 指派 通用 寄存 器 ， 所 以 即使 局 部 变量 
只 用 到 一 两 次 ， 我 们 的 代码 也 可 能 使 用 寄存 器 变量 : 

{put even lightly used locals in registers 378 )= 378 

if Cisscalar(p->type) && !p->addressed && !isfloat(p->type)) 
p->sclass = REGISTER; 

SPARC 代码 生成 器 将 接口 标志 wants callb 置 为 1， 以 匹配 SPARC 关于 返回 结构 的 约定 。 
wants_callb 等 于 1 时 ， 编 译 前 端 执行 下 面 3 个 操作 : 

1. 生成 CALLB 节点 ， 以 调用 返回 结构 的 函数 。 

2. 把 每 个 CALLB 的 第 二 个 子 节点 设置 成 一 个 计算 块 地 址 的 节点 ， 这 些 块 地 址 将 用 来 存储 
被 调用 程序 的 返回 结构 。 
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3. 在 每 次 返回 前 执行 ASGNB ， 将 返回 的 子 节点 标识 的 存储 块 复制 到 由 第 一 个 局 部 变量 标识 
的 存储 块 。 
与 其 他 局 部 变量 一 样 ， 前 端 也 通知 这 个 局 部 变量 ， 后 端 将 这 个 局 部 变量 存 人 为 返回 的 块 结构 而 预 
留 的 栈 空间 : 
(structure return block?379 )= 378 
if (retstruct) { 
p->x.name = stringd(4*16) ; 
p->x.offset = 4*16; 
retstruct = 0; 
return; 


} 
如 果 当 前 函数 返回 一 个 结构 或 联合 ， 那 么 function 将 retstruct 设置 成 1。 
前 端 调用 接口 程序 function 通知 每 个 新 的 例 程 。function 驱动 大 部 分 的 后 端 程序 。function 调 
用 gencode，gencode 通过 gen 调用 标记 程序 、 化 简 程 序 、 线 性 化 程序 及 寄存 器 分 配器 。function 
也 调用 前 端的 emitcode， 该 函数 调用 后 端的 产生 程序 。SPARC 的 前 端 同样 传递 给 function 4 +S 
数 : 符号 ， 表 示 新 例 程 ; 两 个 符号 向 量 ， 分 别 表示 调用 程序 和 被 调用 程序 的 参数 视图 ; 计数 器 ， 
记录 由 该 新 例 程 引发 的 调用 的 次 数 。 
(SPARC functions 364) += 378 383 363 
static void function(f, caller, callee, ncalls) 


Symbol f, callee[], caller[]; int ncalls; { 
int autos = 0, i, leaf, reg, varargs; 


(SPARC function 379) 
} 
leaf 标记 简单 的 叶 例 程 ，varargs 标记 可 变 参 数 例 程 ，autos 记录 存储 器 中 的 参数 数目 ，varargs 和 
autos 都 可 用 于 计算 leaf. AA varargs 可 立即 算出 : 


(SPARC function379 ) 三 379 379 
for (i = 0; callee[i]; i++) 


varargs = variadic(f->type) 
I| i > 0 && strcmp(callee[i-1]->name, 
"__builtin_va_alist") == 0; 
SPARC 的 约定 允许 声明 例 程 是 可 变 参数 例 程 ， 或 者 使 用 宏 将 最 后 一 个 参数 命名 为 _builtin_ va_ 
alist， 来 表明 例 程 是 可 变 参数 例 程 。 
function 清除 后 端的 关于 正在 使 用 的 寄存 器 的 记录 : 


(SPARC function 379) += 379 380 379 
(clear register state 319) 
for (i = 0; 1 < 8; i++) 
ireg[i]->x.regnode->vbl = NULL: 
上 面 的 for 循环 在 MIPS 的 代码 产生 器 中 没有 相对 应 的 部 分 。 因 为 在 MIPS 中 ，lcc 不 会 给 参数 寄 
存 器 分 配 局 部 变量 ， 但 是 在 SPARC 中 可 以 ， 所 以 在 SPARC 中 ，x.regnode->vbl 可 能 保存 了 一 些 
代码 生成 器 编译 的 上 一 个 例 程 遗 留 的 垃圾 。 
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offset 最 初 保存 了 这 个 例 程 中 下 一 个 形 参 的 帧 偏 移 量 。function 初始 化 offset， 每 个 帧 至 少 包 
含 一 个 字 ， 该 字 记 录 了 用 于 返回 结构 的 函数 的 目标 块 的 地 址 ， 当 寄存 器 窗口 必须 溢出 时 ， 每 个 帧 
还 应 加 上 16 个 字 以 保存 i0 ~ 这 和 10 ~ 17: 


(SPARC function379)+= 379 380 379 
offset = 68; 
maxargoffset 保存 输出 参数 所 占 栈 块 的 大 小 。function 至 少 要 为 00 ~ 05 预 留 空间 : 
(SPARC function379)+= 380 380 379 


maxargoffset = 24; 


函数 头 代码 将 输入 的 浮 点 参数 存 人 function 预 留 的 空间 ， 因 为 浮 点 参数 很 少 通过 i- 寄存 器 进行 传 
递 。 而 对 一 些 可 变 参 数 的 函数 (如 printft)， 这 个 空间 存储 了 所 有 输入 参数 寄存 器 ， 因 为 在 它们 的 
函数 头 代码 中 并 不 知道 需要 多 少 参 数 ， 并 且 必 须 在 运行 时 通过 地 址 计算 存 取 参 数 ， 所 需 的 寄存 器 
数 在 编译 时 不 能 确定 。 
function 为 每 个 输入 参数 指定 i- 寄存 器 或 栈 偏 移 量 。 在 下 面 的 for JAR, RERIT, 
offset 都 存 有 为 下 一 个 参数 预 留 的 栈 偏 移 量 ; 如 果 参 数 通 过 寄存 器 传递 ， 则 reg 存 有 下 一 个 参数 
的 寄存 器 号 或 寄存 器 对 号 。 栈 按照 4 字 节 对 齐 ， 所 以 我 们 在 对 每 个 参数 进行 处 理 之 前 将 伟人 参数 
的 大 小 使 之 成 为 4 的 倍数 。 参 数 将 消耗 栈 空间 中 size 大 小 的 字 节 和 size/4 个 寄存 器 。 这 种 方式 不 
包括 结构 参数 ， 结 构 参 数 以 引用 方式 传递 ， 只 消耗 一 个 i- 寄存器。 
(SPARC function 379 ) 十 三 380 381 379 
reg = 0; 
for (i = 0; callee[i]; i++) { 
Symbol p = calleefi], q = caller[i]; 
int size = roundup(q->type->size, 4); 
(classify SPARC parameter 380) 
offset += size; 
reg += isstruct(p->type) ? 1: size/4; 
} 
因为 wants_argb X 0, function 能 够 只 关注 标量 形 参 。 
如 果 参 数 是 一 个 浮 点 值 ， 或 者 参数 寄存 器 已 经 用 完 ， 那 么 该 参数 将 会 存 人 存储 器 。 例 程 需 要 
一 个 存储 器 段 来 存储 这 个 参数 : 


(classify SPARC parameter 380) = 381 380 
if Cisfloat(p->type) || reg >= 6) { 
p->x.offset = q->x.offset = offset; 
p->x.name = q->x.name = stringd(offset); 
p->sclass = q->sclass = AUTO; 
autos++; 


} 
第 一 种 情况 下 ， 如 果 参 数 在 寄存 器 内 ， 由 于 1lcc 的 中 间 代 码 不 可 能 保存 整数 寄存 器 中 的 浮 点 值 ， 
function 将 自己 生成 代码 来 保存 参数 ， 前 端 对 此 无 能 为 力 。 
如 果 参 数 是 整 型 并 且 已 在 i- 寄存 器 内 ， 而 且 例 程 中 会 使 用 它 的 地 址 或 者 该 例 程 为 可 变 参 数 例 
程 ， 那 么 它 仍 需 存 人 存储 器 : 
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(classify SPARC parameter 380) += 380 381 380 
else if (p->addressed || varargs) 
(arrives in an i-register, belongs in memory 381) 


(arrives in an i-register, belongs in memory 381)= 381 
{ 
p->x.offset = offset; 
p->x.name = stringd(p->x.offset) ; 
p->sclass = AUTO; 
q->sclass = REGISTER; 
askregvar(q, ireg[reg]); 
autos++; 


} 


function 将 调用 程序 和 被 调用 程序 的 sclass 域 设 置 为 不 同 值 ， 这 样 前 端 将 产生 一 个 赋值 来 存储 寄 
存 器 。 
对 于 通过 寄存 器 传递 的 参数 ， 如 果 它 是 整 型 参数 ， 且 所 在 例 程 不 使 用 它 的 地 址 ， 例 程 也 不 是 
可 变 参 数 例 程 ， 那 么 该 参数 将 驻 留 在 寄存 器 内 : 
(classify SPARC parameter 380)+= $81 380 
else { 
p->sclass = q->sclass = REGISTER; 
askregvar(p, ireg[reg]); 
q->X.name = p->x.name; 


} 


现在 function 调用 前 端的 gencode, gencode 调 后 端的 gen. Montia 首先 清空 offset， 表 示 没 
有 局 部 变量 被 指派 到 栈 上 ; 接着 function 清空 maxoffset 以 跟踪 记录 offset 的 最 大 值 。 因 为 local 
必须 对 它 的 第 一 个 局 部 变量 做 特殊 处 理 ， 故 function 对 每 个 返回 聚合 类 型 的 函数 进行 标记 ; 
(SPARC data 365)+= 365 385 362 
static int retstruct; 
(SPARC function379)+= 380 381 379 
offset = maxoffset = 0; 


retstruct = isstruct(freturn(f->type)) ; 
gencode(caller, callee); 


gencode 完成 第 一 遍 代 码 生成 并 且 返 回 后 ，function 就 能 够 计算 出 帧 和 参数 构建 块 的 大 小 ， 输 
出 参数 排列 在 该 区 域 中 。 参 数 构 建 块 的 大 小 必须 是 4 的 倍数 ， 否 则 有 些 栈 段 就 不 能 对 齐 。 帧 大 小 
必须 是 8 的 倍数 ， 它 包括 局 部 变量 的 存储 空间 、 参 数 构建 区 空间 以 及 存放 i0 ~ 17 AO ~ 17 的 
16 个 字 ， 另 外 用 一 个 字 存 放任 意 聚 合 返回 块 的 地 址 : 

(SPARC function 379) += 381 381 379 


maxargoffset = roundup(maxargoffset, 4); 
framesize = roundup(maxoffset + maxargoffset + 4*(16+1), 8); 


对 于 不 需要 新 帧 或 者 寄存 器 窗口 的 例 程 ，function 不 给 它们 分 配 新 帧 或 寄存 器 窗口 ， 这 样 可 
以 节省 处 理 时 间 : 


(SPARC function 379) += 381 382 379 
leaf = ((is this a simple leaf function?382 )) ; 
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成 为 叶 例 程 的 限制 有 很 多 ， 首 先 该 例 程 不 会 调用 其 他 函数 : 


(is this a simple leaf function?382)= 382 381 
incalls 
存储 器 中 没有 局 部 变量 或 形 参 : 
(is this a simple leaf function? 382)+= 382 382 381 


&& !maxoffset && !autos 


函数 不 返回 结构 ， 因 为 这 样 的 函数 将 使 用 帧 指针 存 取 含有 返回 块 位 置信 息 的 单元 : 


(is this a simple leaf function?382)+= 382 382 381 
& !isstruct(freturn(f->type)) 
没有 寄存 器 需要 保存 : 
(is this a simple leaf function?382)+= 382381 


&& ! Cusedmask [IREG]&0x00F FFF01) 
&& ! (usedmask[FREG]& (unsigned) 3) 
这 意味 着 该 例 程 的 参数 将 限制 在 输入 参数 寄存 器 o0 ~ 07 中 。 例 程 既 不 必 调 试 也 不 必 做 性 能 分 
析 ， 本 书 省 略 了 这 部 分 检查 。 如 果 所 有 这 些 条 件 都 满足 ， 那 么 该 例 程 可 以 不 需要 帧 。 
所 有 的 函数 头 代码 都 从 公用 的 模板 文件 开始 : 
(SPARC function379)+= $81 382 379 
print(".align 4\n.proc 4\n%s:\n", f->x.name); 
大 多 数 函 数 头 代码 紧 跟着 一 个 save 指令 分 配 新 的 寄存 器 窗口 ， 并 将 一 个 寄存 器 或 常量 与 另 一 个 
寄存 器 相 加 。save 指令 最 常见 的 用 法 是 把 一 个 负 值 常量 加 到 sp 上 ， 实 现在 向 下 增长 的 栈 中 分 配 
新 的 帧 : 


(SPARC function379)+= 382 383 379 
if (leaf) { 
(emit leaf prologue 382) 


} else if (framesize <= 4095) 
print("save **sp,%d,*%sp\n", -framesize) ; 
1 
‘ i %d,%%g1; save %%sp,%%g1,%%sp\n", -framesize); 
如 果 常 量 不 能 存 人 SPARC 立即 数 域 ， 函 数 头 代码 将 首先 计算 该 常量 ， 并 存 人 寄存 器 glo 
符合 叶 优化 的 例 程 无 须 函数 头 代 码 ， 但 在 这 种 情况 下 ， 代 码 生 成 器 仍 将 参数 、 局 部 变量 和 临 
时 变量 存 人 六 寄存 器 。 如 果 我 们 已 经 决定 不 生成 帧 和 寄存 器 窗口 ， 就 应 该 用 相应 的 o- 寄存 器 代 
替 i- 寄 存 器 。lcc 的 后 端 没有 专门 的 成 批 重 命名 功能 ， 所 以 最 好 的 解决 方法 是 : function 临时 改变 
那些 保存 每 个 i- 寄存 器 的 名 字 和 编号 的 结构 ， 重 新 命名 为 0- 寄存 器 。 具 体操 作 过 程 是 : 从 caller 
的 参数 向 量 和 人 手 ，function 在 初始 for 循环 中 把 i- 寄存 器 的 名 字 复 制 到 参数 的 xname 域 ， 接 着 修 
JE xname 域 : 
(emit leaf prologue 382 )= 382 
for (i = 0; caller[i] && callee[i]; i++) { 
Symbol p = caller{i], q = callee[i]; 


if (p->sclass == REGISTER && q->sclass == REGISTER) 
p->x.name = greg[q->x.regnode->number - 16]->x.name; 


renameQ); 
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函数 rename 完成 余下 的 工作 : 


(SPARC functions 364) += 379 384 363 
#define exch(x, y, t) (((t) = x), COO = (y)), CY) = (t))) 


static void rename() { 
int ji; 


for Ci = 0; i < 8; i++) { 
char *ptmp; 
int itmp; 
if Cireg[i]->x.regnode->vb1) 
ireg[i]->x.regnode->vb]->x.name = oreg[i]->x.name; 
exch(ireg[i]->x.name, oreg[i]->x.name, ptmp); 
exch(ireg[i]->x.regnode->number , 
oreg[i]->x.regnode->number, itnmp); 
} 
} 


rename 交换 对 应 的 寄存 器 和 o- 寄存 器 的 名 字 和 编号 ，function 结尾 处 通过 另 一 个 交换 来 恢复 函 
数 开始 时 的 样子 。 如 果 寄 存 器 分 配器 已 将 寄存 器 指派 给 了 变量 ，rename 也 要 修正 此 变量 在 符号 结 
构 中 记录 的 名 字 。 由 于 rename 导致 的 改变 在 当前 例 程 的 结尾 处 必须 还 原 ， 因 此 rename 用 交换 来 
实现 ; 但 是 由 于 在 当前 例 程 之 外 ，caller 和 寄存 器 变量 不 再 有 用 ， 因 此 ， 它 们 的 改变 可 用 简单 赋 
值 实现 。 

function 下 一 步 生 成 函数 头 代码 以 保存 已 存在 于 寄存 器 中 但 不 能 驻 留 的 参数 。 由 于 函数 头 代 
码 并 不 知道 可 变 参数 的 例 程 实际 包含 的 参数 数目 ， 因 此 可 变 参 数 的 例 程 必须 保存 i0 ~ iS: 


(SPARC function379 ) += 382 384 379 
if (varargs) 
for (; reg < 6; reg++) 
print("st %%i%d, [%%fp+%d]\n", reg, 4*reg + 68); 
else 
(spill floats and doubles from i0-i5 383) 


函数 头 代码 也 保存 通用 寄存 器 内 的 浮 点 值 ， 因 为 指令 不 能 在 通用 寄存 器 中 对 浮 点 值 进 行 处 理 : 


(spill floats and doubles from i0-i5 383 )= 383 
offset = 4*(16 + 1); 
reg = 0; 
for Ci = 0; caller[i]; i++) { 
Symbol p = caller[i]; 
if Cisdouble(p->type) && reg <= 4) { 
print("st %%r%d, [X%fp+%d]\n", 
ireg[reg++]->x.regnode->number, offset); 
print ("st %%r%d, [(%¥fp+%d]\n", 
ireg[reg++]->x.regnode->number, offset + 4); 
} else if Cisfloat(p->type) && reg <= 5) 
print("st *%r%d, [%%fp+%d]\n", 
jreg[reg++]->x.regnode->number, offset); 
else 
reg++; 
offset += roundup(p->type->size, 4); 


} 
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isfloat 处 理 浮 点 数 和 双 精 度数 ， 所 以 上 面 的 第 一 个 else 子 句 不 仅 保存 浮 点 数 也 将 双 精 度数 的 前 半 
部 分 保存 在 i5 中 ， 后 半 部 分 已 经 在 存储 器 里 了 ， 调 用 程序 通常 这 样 做 。 

最 后 ，function 产生 性 能 分 析 代 码 (这 里 没有 显示 ) 以 及 当前 例 程 的 函数 体 和 函数 尾 代码 。 
函数 尾 代 码 一 般 由 ret 指令 和 restore 指令 组 成 ，ret 指令 返回 到 调用 程序 ，restore 指令 在 ret 的 
延迟 槽 内 ， 用 于 还 原 函 数 头 代 码 中 的 save 指令 。 如 果 例 程 没有 用 到 寄存 器 窗口 和 栈 帧 ， 那 么 也 
就 没 必要 还 原 save 指令 了 ， 但 是 需要 另 一 个 rename 函数 还 原 前 面 被 改动 的 i- 寄存 器 的 名 字 和 
编号 : 

(SPARC function 379)+= 383 379 

(emit profiling code) 
emitcode(); 
if (!leaf) 
print("ret; restore\n"); 
else { 
rename(); 
print("retl; nop\n"); 
} 
伪 指 令 ret 和 retl 都 使 用 含 返 回 地 址 的 寄存 器 来 生成 间接 分 支 指令 。 由 于 没有 压 栈 操作 ，ret 必须 
使 用 这 ，retl 必须 使 用 o7 命名 同一 个 寄存 器 ， 所 以 ret, rel 需要 有 不 同 的 名 字 。 


17.4 数据 的 定义 


SPARC 中 的 defconst, defaddress, defstring 和 address 与 MIPS 对 应 的 实例 相同 。 参 见 第 16 
章 中 的 代码 。 
前 端 调用 export 将 本 模块 的 符号 输出 给 其 他 模块 ， 这 是 SPARC 汇编 程序 指示 符 ,global 的 
作用 : 
(SPARC functions364 )+= 383 384 - 363 
static void export(p) Symbol p; { 


print(".global %s\n", p->x.name); 


前 端 调用 import 使 得 当前 模块 能 访问 其 他 模块 中 定义 的 符号 。SPARC 汇编 程序 假设 未 定义 
的 符号 都 是 外 部 符号 ， 所 以 SPARC 的 import 不 做 任何 工作 : 
(SPARC functions 364)+= 384 384 363 
static void import(p) Symbol p; {} 
前 端 调 用 defsymbol 通知 新 的 符号 ， 并 提示 后 端 初始 化 x.name Ho SPARC 的 约定 要 为 每 个 
局 部 静态 符号 命名 ， 在 以 后 的 程序 中 就 用 这 个 名 字 。SPARC 链接 编辑 器 将 工 开头 的 符号 从 符号 
表 中 删除 ， 所 以 defsymbol 将 工 放 在 生成 的 符号 之 前 。 对 于 其 他 的 符号 则 在 它们 之 前 加 下 划 线 ， 
这 也 是 SPARC 的 约定 : 
(SPARC functions 364) += 38s 385 36: 
static void defsymbol(p) Symbol p; { 
if (p->scope >= LOCAL && p->sclass == STATIC) 
p->x.name = stringf("%d", genlabel(1)); 


else 
p->x.name = p->name; 
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if (p->scope >= LABELS) 
p->x.name = stringf(p->generated ? "L%s" : " %s", 
p->x.name) ; 


} 


385 


具有 文件 作用 域 的 静态 符号 保留 了 它们 的 名 字 。 骸 套 块 中 的 静态 符号 使 用 编号 标识 以 避免 与 其 他 


例 程 的 静态 符号 冲突 。 
接口 例 程 segment 产生 .seg"name"， 表 示 一 个 新 段 的 开始 : 


(SPARC functions 364 ) += 384 385 363 
static void segment(n) int n; { 
cseg = ni 
switch (n) { 
case CODE: print(".seg \"“text\"\n"); break; 
case BSS: print(".seg \"bss\"\n"); break; 
case DATA: print(".seg \"data\"\n"); break; 
case LIT: print(".seg \"text\"\n"); break; 
} 
} 


接口 例 程 space 需要 segment 将 当前 段 保存 在 cseg tH, space 生成 汇编 程序 指示 符 .skip 为 已 初始 


化 的 全 局 或 静态 符号 预 留 n 字 节 的 空间 : 


(SPARC data365)+= 381 362 
static int cseg; 
(SPARC functions 364) += 5 385 363 
static void space(n) int n; { 
if (cseg != BSS) 
print(".skip %d\n", n); 
} 


根据 标准 的 要 求 ，.skip 清空 它 所 分 配 的 空间 。 
如 果 是 在 BSS 程 序 段 ， 接 口 程序 global 可 以 定义 标号 ， 并 预 留 所 需 空 间 
用 .common， 其 他 符号 用 .reserve: 


(SPARC functions 364) += 385 386 363 
static void global(p) Symbol p; { 
print(".align %d\n", p->type->align) ; 
if (p->u.seg == BSS 
&& (p->sclass == STATIC || Aflag >= 2)) 
print(”.reserve %s,%d\n", p->x.name, p->type->size) ; 
else if (p->u.seg == BSS). 
print(".common %s,%d\n", p->x.name, p->type->size); 
else 
print("%s:\n", p->x.name) ; 


} 


， 外 部 符号 


global 也 可 以 生成 一 个 对 齐 指示 符 ， 对 于 已 初始 化 的 全 局 名 还 产生 标记 。.common 输出 符号 ， 并 
标识 它们 ， 这 样 即使 其 他 模块 用 common 命令 输出 同样 的 符号 ， 装 配 程序 也 只 生成 一 个 公用 的 
全 局 名 。.reserve 的 做 法 不 同 ， 静 态 名 使 用 .reserve 以 避免 输出 。 如 果 使 用 了 编译 选项 -A-A (B 
Aflag>=2 )， 对 于 全 局 符号 ，global 也 使 用 .reserve。 当 多 个 模块 定义 了 同一 个 全 局 名 时 ， 装 配 程 
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序 将 产生 警告 信息 。ANSI 前 的 C 允许 重复 定义 ， 但 从 技术 上 说 ANSI C 要 求 单 一 定义 ， 其 他 模 
块 应 使 用 extern 声明 相同 的 变量 。 


17.5 HHEH 
blkfetch 产生 代码 读 取 内 存 块 ， 即 产生 代码 首先 将 寄存 器 reg 和 偏 移 量 o 企 相 加 得 到 地 址 ， 然 
后 从 相应 地 址 单元 中 取出 k 个 字 节 的 数据 载 人 寄存 器 tmp。k 可 以 取 值 1、2 或 4: 


(SPARC functions364 )+= 385 386 363 
static void bikfetch(k, off, reg, tmp) 
int k, off, reg, tmp; { 
if (k == 1) 
print("ldub [X%r%d+%d],%%r%d\n", reg, off, tmp); 
else if (k == 2) 
print("|duh [%%r%d+%d] ,%%r%d\n", reg, off, tmp); 
else 
print("ld [X%r%d+%d] ,%%r%d\n", reg, off, tmp); 


} 
SPARC 指令 只 载 和 人 对齐 后 的 值 ， 所 以 blkfetch 无 须 判 断 载 入 的 值 是 否 对 齐 ， 但 MIPS 的 
blkfetch 就 要 做 这 个 判断 。blkunroll 用 x.max_unaligned load 选取 了 一 个 块 大 小 ， 并 且 保 证 对 齐 字 


节 数 不 小 于 块 大 小 。blkfetch 只 能 选择 读 取 8 位 字 节 、16 位 半 字 或 32 位 字 。blkstore 与 blkfetch 
的 做 法 一 样 : 
(SPARC functions 364 ) += 386 386 363 
static void blkstore(k, off, reg, tmp) 
int k, off, reg, tmp; { 
if (k == 1) 
print("stb %%r%d, [MX%r%d+%d]\n", tmp, reg, off); 
else if (k == 2) 


print("sth %%r%d, [%%r%d+%d]\n", tmp, reg, off); 
else 
print("st %%r%d, [X%r%d+%d]\n", tmp, reg, off); 


所 有 SPARC 的 blk 过 程 都 使 用 类 似 r9 的 通用 寄存 器 名 。 如 果 我 们 试图 像 在 其 他 地 方 一 样 ， 在 blk 
中 使 用 以 g、i、1、o 为 首 字 母 的 名 字 ， 那 么 就 需要 改变 blk 程序 之 间 的 接口 ， 以 直接 传送 寄存 器 
名 而 不 是 编号 ， 但 这 也 增加 了 不 少 麻 烦 ， 例 如 直接 导致 ee 二进制 目标 代码 的 产生 变 得 更 加 复杂 。 

blkloop 产生 循环 从 源 地 址 (寄存 器 sreg Fl Ht soff 之 和 ) 复制 size 大 小 的 字 节 到 目的 地 
址 (寄存 器 dreg 和 偏 移 量 doff 之 和 )。 


(SPARC functions 364 )+= 386 363 
static void blkloop(dreg, doff, sreg, soff, size, tmps) 
int dreg, doff, sreg, soff, size, tmps[]; { 
(SPARC blkloop 387 ) 
} 
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tmps 给 3 个 寄存 器 命名 以 用 作 临 时 寄存 器 。 每 次 迭代 复制 8 个 字 节 。 初 始 化 时 将 sreg 指向 源 块 
的 末端 ，tmps[2] 指向 目标 块 的 末端 。 这 个 程序 段 有 两 个 子 程序 块 。 如 果 块 大 小 能 够 用 有 符号 的 
13 个 有 效 数 位 的 域 表 示 ， 则 可 以 直接 处 理 。 和 否则 ， 先 计算 块 的 大 小 并 存 和 人 寄存 器 tmps[2] 中 ， 然 
后 把 该 寄存 器 加 到 输入 源 地 址 和 目的 地 址 上 。 
(SPARC bikloop 387 )= 387 386 
if ((size&~7) < 4096) { 
print("add *%r%d,%d,%%r%d\n", sreg, size&~7, sreg); 
print("add %X%r%d,%d,%%r%d\n", dreg, size&~7, tmps[2]); 
} else { 
print("set %d,%%r%d\n", size&~7, tmps[2]); 
print("add X%r%d,%%r%d,%%r%d\n", sreg, tmps[2], sreg); 
print("add %%r%d,%%r%d,%%r%d\n", dreg, tmps[2], tmps[2]); 


如 果 块 的 大 小 不 是 8 的 倍数 ， 则 第 一 个 blkcopy 将 复制 除 以 8 后 的 余数 字 节 : 
(SPARC b1k100p 387 )+= 387 387 386 
bikcopy (tmps[2], doff, sreg, soff, size&7, tmps); 
循环 每 次 迭代 都 会 使 寄存 器 sreg 和 tmps[2] WR 8- tmps[2] 立即 减 8， 而 sreg 的 递减 要 推迟 到 循环 
未 端的 分 支 延迟 槽 中 : 


(SPARC b1k1oop 387) += 387 387 386 
print("1: dec 8,%%r%d\n", tmps[2]); 


tmps[2] 减 8 后 ， 循 环 调用 blkcopy， 从 源 地 址 处 复制 8 个 字 节 到 目的 地 址 。 由 于 sreg 不 能 现在 递 
减 ， 因 此 只 能 调节 源 地 址 偏 移 量 ，blkcopy 的 第 4 个 参数 使 用 soff-8: 


(SPARC bTk1oop387 ) += 387 387 386 
bikcopy(tmps[(2], doff, sreg, soff - 8, 8, tmps); 
最 后 ， 如 果 还 有 剩余 字 节 则 循环 继续 进行 : 


(SPARC b1k100p 387 ) += 387 386 
print("cmp %%r%d,%%r%d; ", tmps[2], dreg); 


print(“bgt 1b; “); 
print("dec 8,%%r%d\n", sreg); 


深入 阅读 
SPARC 参考 手册 详细 说 明了 这 种 机 器 的 结构 ( SPARC International, 1992). Patterson and 


Hennessy ( 1990 ) 解释 了 各 种 延迟 槽 的 作用 。Krishnamurthy ( 1990 ) 综述 了 有 关 指 令 在 延迟 槽 中 
调度 的 文献 。 


练习 


17.1 添加 一 个 标记 ， 使 后 端 不 必 通 过 函数 调用 而 直接 生成 指令 来 对 有 符号 和 无 符号 整数 做 乘除 法 。 

17.2 WE lcc 的 SPARC 代码 生成 器 使 之 能 更 好 地 利用 寄存 器 gl ~ g7， 并 将 浮 点 变量 保存 在 浮 点 寄存 内 
中 。 回 顾 前 面 的 调用 约定 ， 所 有 已 编译 的 库 例 程 都 没有 维持 这 些 寄存 器 。 

173 ” 找 出 无 条 件 跳 转 后 的 延迟 槽 的 一 些 用 法 。 例 如 ， 可 以 将 跳 转 的 目标 指令 复制 到 延迟 槽 内 ， 跳 转 的 目标 
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17.4 


17.5 


17.6 


17.7 


可 以 改写 为 原 目标 指令 的 下 一 条 指令 ; 有 些 优化 程序 需要 缓冲 代码 ， 并 用 额外 的 优化 遍 来 处 理 它们 。 
MIPS R3000 也 有 这 样 的 延迟 模 ， 但 是 标准 的 汇编 程序 会 重新 对 指令 进行 排序 并 用 更 有 用 的 指令 填充 
延迟 槽 ， 所 以 在 MIPS R3000 上 ， 我 们 可 以 忽略 这 个 问题 。 

找 出 条 件 分 支 后 的 延迟 槽 的 一 些 用 法 。 比 如 设计 一 个 取消 位 ( annul bit)， 它 说 明了 延迟 槽 中 的 指令 没 
有 作用 ， 除 非 该 分 支 是 条 件 分 支 ， 而 且 条 件 成 立 。 在 操作 码 中 添加 a 来 设置 取消 位 〈 例 如 be，aL4 )。 
对 于 某 些 SPARC 的 处 理 器 ， 若 一 条 load 指令 恰好 在 要 用 该 值 的 指令 之 前 。 必 然 造成 至 少 一 个 时 钟 周 
期 的 处 理 器 延迟 ， 其 执行 速度 与 目标 代码 在 load 之 后 再 执行 一 个 空 操作 一 样 (虽然 要 占用 一 个 字 长 )。 
对 已 生成 的 汇编 指令 重新 排序 以 消除 一 些 延 迟 。Proesting and Fischer ( 1991 ) 描述 了 一 种 指令 排序 
方案 。 

一 些 叶 例 程 尽管 不 需要 寄存 器 窗口 ， 但 由 于 需要 一 个 帧 指针 ， 所 以 仍然 没有 进行 叶 优化 。 例如 ,一 些 
返回 结构 的 函数 不 需要 窗口 ， 但 要 用 到 帧 指针 。 修 改 lcc， 使 这 些 例 程 仅 生成 一 个 帧 而 不 生成 寄存 器 
窗口 。 

SPARC 的 代码 生成 器 包含 一 些 特殊 代码 ， 它 们 保证 了 当 寄 存 器 全 都 分 配 完 时 ， 溢 出 程序 可 以 生成 代 
码 对 其 中 一 个 寄存 器 进行 保存 。 设 计 一 个 小 的 测试 程序 来 跟踪 这 段 代 码 。 
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X86 代码 的 生成 





为 了 说 明 Intel 386 结构 的 代码 生成 具有 兼容 性 ， 本 书 统一 使 用 X86 代表 与 其 兼容 的 机 器 。 
X86 包括 Intel 486 和 奔腾 系列 ， 以 及 AMD 和 Cyrix 生产 的 系列 兼容 机 。X86 的 Iburg 规范 采用 近 
似 的 Intel 486 的 指令 开销 周期 ， 对 于 与 486 兼容 的 结构 而 言 ， 大 部 分 情况 下 可 以 得 到 最 优 结果 ， 
但 也 不 是 绝对 的 。 许 多 不 必要 的 开销 被 忽略 掉 了 。 例 如 ， 如 果 一 条 规则 只 与 某 一 个 操作 符 匹配 ， 
那么 就 没 必要 花费 代价 打破 它们 的 导出 关系 。 

X86 结构 属于 CISC， 即 复杂 指令 集 机 器 。 它 包含 大 量变 长 指令 和 寻 址 模式 。X86 结构 有 8 
个 32 位 通用 寄存 器 和 8 个 80 位 浮 点 寄存 器 ， 浮 点 寄存 器 组 成 一 个 浮 点 栈 。 

X86 结构 的 C 语言 编译 器 有 很 多 种 ， 这 些 编译 器 使 用 的 约定 各 不 相同 (比如 函数 调用 规则 和 
返回 值 规则 )。 本 章 采 用 的 代码 生成 器 遵循 Borland C++ 4.0 的 约定 ， 它 使 用 Borland 的 标准 头 文 
件 、 库 和 链接 器 ， 而 使 用 其 他 X86 环境 的 lcc 可 能 需要 做 些 改 动 。 

各 种 X86 汇 编程 序 使 用 的 语法 不 同 。lcc 采 用 微软 的 MASM 6.11 Ail Borland 的 Turbo 
Assembler 4.0， 所 以 lcc 生成 的 代码 上 述 两 种 汇编 程序 都 能 接受 。 这 两 种 汇编 程序 的 指令 都 将 
目的 操作 数 放 在 源 操作 数 之 前 ， 而 且 使 用 寄存 器 名 而 不 是 寄存 器 号 。 表 18-1 描述 了 部 分 指令 的 
示例 。 

表 18-1 X86 汇编 器 输入 样 例 


汇编 指令 意义 
mov al, byte ptr 8 将 寄存 器 al 的 值 设 置 为 地 址 为 8 的 字 节 单元 的 值 
mov dword ptr 8 [edi*4],1 将 地 址 为 寄存 器 edi 的 值 乘 以 4 再 加 上 8 的 32 位 字 的 值 设置 为 1 
subu eax, 7 将 寄存 器 eax 的 值 减 去 7 
fsub qword ptr x 将 浮 点 栈 栈 顶 的 值 减 去 标号 为 x 的 单元 中 的 双 精 度 浮 点 值 
jmp Ll 跳 转 到 标号 为 L1 的 指令 处 
cmp dword ptr x, 7 将 标号 为 x 的 32 位 字 的 值 与 7 进行 比较 ， 比 较 结果 保存 在 条 件 标志 中 
jI LI 如 果 上 次 比较 结果 为 小 于 ， 转 移 到 标号 L1 处 
dword 020H 将 内 存 中 下 一 个 字 节 单元 初始 化 成 十 六 进 制 数 20 


文件 x86.c 包含 了 所 有 与 X86 相关 的 代码 和 数据 。 下 面 是 lburg 规范 ， 其 中 接口 例 程 在 文法 
的 后 面 : 


(x86.md 389 ) 三 
%{ 


(X86 macros 390) 

(lburg prefix 293) 
{interface prototypes) 
(X86 prototypes) 

(X86 data 391) 

%} 

(terminal declarations 293) 
%% 


(shared rules312) 
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(X86 rules395) 

6% 

(X86 functions 390) 

(X86 interface definition 390) 


最 后 的 程序 段 配置 前 端 ， 并 指向 后 端的 关于 X86 的 例 程 和 数据 : 


(X86 interface definition 390 )= 390 
Interface x86IR = { 
T /* char */ 
2, /* short */ 
fo int y 
A Float */ 
/* double */ 
T Awy 
struct; so that ARGB keeps stack aligned */ 
little_endian */ 
mulops_calls */ 
wants_callb */ 
wants_argb */ 
left to right */ 
/* wants_dag */ 
(interface routine names) 
(symbol-table emitters 390) 
{1, (Xinterface initializer 277)} 


~ 
* 


>be bh DN 
ocoorrocSOo 
~ 

* 


> 
* 


oorcorosa oh 
Se. ey Sos 
+ + + + 


}; 
MIPS 和 SPARC 的 约定 都 是 从 左 向 右 计算 参数 ， 而 X86 恰好 相反 ， 所 以 它 的 接口 标志 left to_ 
right 为 0。 


X86 的 编译 器 可 以 采取 不 同方 式 为 调试 器 对 汇编 程序 的 符号 表 进 行 编码 ，X86 的 约定 并 不 提 
供 标准 方式 ， 所 以 lce X86 的 后 端 没有 符号 表 产生 器 : 


(symbol-table emitters 390 )= 390 
0 Qe 0: 10) 0, 0; 0; 


18.1 寄存 器 


X86 结构 包括 8 个 通用 寄存 器 。 汇 编程 序 对 每 个 寄存 器 命名 ， 分 别 是 eax, ecx, edx, ebx, 
esp, ebp, esi 和 edis HF lec 的 寄存 器 分 配器 需要 一 个 数 来 计算 寄存 器 掩 码 的 移 位 距离 ， 所 以 
lec 借用 了 一 些 指令 的 二 进 制 编码 表示 方法 : 


(X86 macros 390)= 389 
enum { EAX=0, ECX=1, EDX=2, EBX=3, ESI=6, EDI=7 }; 


X86 的 约定 要 求 预 留 ebp 保存 帧 指针 ， 预 留 esp 保存 栈 指 针 ， 所 以 lcc 不 分 配 这 两 个 寄存 器 。 
progbeg 建立 了 描述 寄存 器 的 结构 : 


(X86 functions 390 ) 三 393 390 
static void progbeg(argc, argv) int argc; char *argv[]; { 
tnt i; 
(shared progbeg 290) 


parseflags(argc, argv); 
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intreg[EAX] = mkreg("eax", EAX, 1, IREG); 
intreg[EDX] = mkreg("edx", EDX, 1, IREG); 
intreg[ECX] = mkreg("ecx", ECX, 1, IREG); 
intreg[EBX] = mkreg("“ebx”, EBX, 1, IREG); 
intreg[ESI] = mkreg("esi", ESI, 1, IREG); 
intreg[EDI] = mkreg("edi", EDI, 1, IREG); 
(X86 progbeg 391) 
} 


汇编 程序 代码 采用 不 同 的 名 字 对 全 32 位 寄存 器 以 及 它 的 低 8 位 和 低 16 位 子 寄存 器 命名 。 例 
如 ， 汇 编程 序 代码 使 用 eax 命名 第 一 个 32 位 寄存 器 ， 使 用 ax 命名 该 寄存 器 的 低 16 位 子 寄 存 器 ， 
使 用 al 命名 它 的 末尾 字 节 。 这 个 规则 要 求 为 短 整 数 和 字符 初始 化 单独 的 寄存 器 向 量 : 


(X86 data 391)= 3 389 
static Symbol charreg[32], shortreg(32], intreg[32]; 
static Symbol fltreg[32]; 


(X86 progbeg 391 )= 391 391 
shortreg[EAX] = mkreg("“ax", EAX, 1, IREG); 
shortreg[ECX] = mkreg("cx", ECX, 1, IREG); 
shortreg(EDX] = mkreg("dx", EDX, 1, IREG); 
shortreg[EBX] = mkreg("bx", EBX, 1, IREG); 
shortreg[ESI] = mkreg("si", ESI, 1, IREG); 
shortreg[EDI] = mkreg("di", EDI, 1, IREG); 


(X86 progbeg 391 )+= 391 392 391 
charreg[EAX] = mkreg("al", EAX, 1, IREG); 
charreg[ECX] = mkreg("cl", ECX, 1, IREG); 
charreg[EDX] = mkreg("d1", EDX, 1, IREG); 
charreg[EBX] = mkreg("b1", EBX, 1, IREG); 

由 于 没有 指令 寻 址 esi 和 edi 的 末尾 字 节 ， 所 以 汇编 程序 并 未 对 它们 的 低 8 位 子 寄存 器 命名 。 字 
节 指 令 能 寻 址 每 个 16 位 寄存 器 的 高 8 位 ， 但 用 这 些 字 节 寄存 器 会 使 代码 生成 过 程 更 为 复杂 ， 
此 lec 没有 使 用 它们 。 例 如 ， 如 果 操 作 数 处 在 低位 字 节 ， 则 CVCI 需 要 生成 一 个 指令 序列 ; 当 操 
作 数 在 高 位 字 节 上 时 ，CVCI 需要 生成 另 一 个 指令 序列 。 表 18-2 概括 了 所 有 可 分 配 的 寄存 器 。 


表 18-2 可 分 配 的 X86 寄存 器 


Int Sa 
= 7 a 
= —— -_ a 
si pr E 


X86 的 浮 点 寄存 器 组 织 成 一 个 栈 。 有 些 指令 的 操作 数 能 存 人 任意 一 个 浮 点 寄存 器 中 〈 自 上 而 
下 )， 但 也 有 一 些 重要 的 指令 要 求 栈 式 操作 。 例 如 ， 浮 点 加 法 指令 的 所 有 变 体 都 需要 至 少 一 个 操 
作 数 在 栈 项 。 在 汇编 程序 里 ， 操 作 数 st 表示 栈 顶 ，st(D) 表示 st 下面 的 值 。 把 一 个 值 压 人 栈 就 是 
使 st 表示 一 个 新 的 单元 ， 这 时 st(1) 表示 的 是 刚才 st 所 指向 的 单元 。 

lee 采用 固定 名 字 的 寄存 器 ， 因 此 不 能 随 栈 大 小 的 增 减 而 改变 寄存 器 的 名 字 。X86 的 浮 点 寄 
存 器 不 符合 这 一 规定 ， 所 以 leo 的 寄存 器 分 配器 不 对 X86 的 浮 点 寄存 器 进行 管理 ， 而 是 由 指令 来 


392 # 18% 


操作 这 类 寄存 器 。 例 如 ， 取 指令 将 一 个 值 压 入 栈 ， 这 样 就 实现 了 寄存 器 分 配 。 加 法 指令 一 次 从 栈 
中 弹出 两 个 操作 数 ， 然 后 将 相 加 的 结果 压 人 栈 ， 显 然 加 法 指令 能 实现 同时 释放 两 个 寄存 器 并 重新 
分 配 一 个 寄存 器 。 
通过 简单 地 清除 rmap 中 的 和 人口， 并 不 能 禁止 寄存 器 分 配器 为 浮 点 和 双 精 度 分 配 寄存 器 。 如 
果 某 个 节点 产生 一 个 值 ， 那 么 寄存 器 分 配器 会 假定 它 需 要 一 个 寄存 器 来 保存 该 值 ， 并 且 假设 节点 
的 syma[RX] 将 给 出 所 需 寄 存 器 的 类 型 。 所 以 我 们 需要 对 浮 点 寄存 器 进行 表示 ， 但 是 这 种 表示 法 
不 会 破坏 原 有 的 寄存 器 分 配器 。 一 个 简单 的 方法 就 是 创建 具有 零 掩 码 的 寄存 器 ， 它 使 getreg 总 能 
执行 成 功 并 且 不 改变 关键 的 编译 器 状态 : 
(X86 progbeg 391 ) 十 三 391 392 391 
for Ci = 0; i. < 8; i++) 
fltreg[i] = mkreg("%d", i, 0, FREG); 
这 种 巧妙 的 设计 使 得 寄存 器 分 配器 能 正常 工作 ， 但 它 还 不 是 最 好 的 。 这 个 方法 说 明了 可 重 定位 编 
译 器 设计 中 常见 的 折 中 考虑 。 我 们 尽 可 能 合理 地 把 代码 移入 编译 器 中 与 目标 机 器 无 关 的 部 分 ， 并 
将 这 些 部 分 固定 下 来 。 在 设计 上 ， 我 们 不 可 能 考虑 到 所 有 种 类 机 器 的 全 部 功能 部 件 ， 因 而 某 些 机 
器 的 代码 生成 器 可 能 需要 采取 特定 的 工作 方式 ， 它 们 生成 的 代码 也 只 是 次 优 的 。 
rmap 存储 通配符 ,这些 通配符 标识 了 每 种 数据 类 型 的 默认 寄存 器 类 型 : 
(X86 progbeg391 )+= 392 392 391 
rmap(C] = mkwildcard(charreg) ; 
rmap[S] = mkwildcard(shortreg) ; 
rmap[P] = rmap(B] = rmap[U] = rmap[I] = mkwildcard(intreg); 
rmap[F] = rmap[D] = mkwildcard(fitreg) ; 
tmask 和 vmask 分 别 标识 存储 临时 变量 和 寄存 器 变量 的 寄存 器 。lcc 只 能 使 用 X86 的 6 个 通用 寄 
存 器 ， 其 中 一 些 可 以 在 函数 调用 、 块 复制 和 其 他 一 些 特 殊 指 令 或 指令 序列 中 溢出 。 如 果 公 共 子 表 
达 式 太 多 ，lcc 简单 的 寄存 器 分 配器 将 会 生成 一 些 处 理 寄存 器 的 代码 ， 这 些 代码 的 效果 就 像 对 虚 
拟 存储 页 频繁 地 换 进 换 出 一 样 。 因 而 保守 的 方案 是 将 全 部 6 个 通用 寄存 器 预 留 给 临时 变量 ， 而 不 
是 把 它们 分 配给 一 般 变 量 。 
(X86 progbeg 391) += 392 392 391 
tmask[IREG] = (1<<EDI) | (1<<ESI) | (1<<EBX) 


| (1<<EDX) | (1<<ECX) | (1<<EAX); 
vmask{IREG] = 0; 


loc 对 浮 点 寄存 器 的 处 理 类 似 。 


(X86 progbeg 391) += 392 392 391 
tmask[FREG] = Oxff; 
vmask[FREG] = 0; 


progbeg 生成 一 些 固定 的 指令 ， 以 便 对 产生 的 代码 进行 汇编 和 链接 ; 


(X86 progbeg 391 )+= 392 393 391 
print(".486\n"); 
print(”.model smal1\n"); 
printC"extrn __turboFloat:near\n"); 
print("extrn __setargv:near\n"); 


上 面 对 外 部 符号 的 引用 将 指导 链接 程序 安排 一 个 特殊 的 浮 点 包 和 代码 ， 以 便 在 每 个 main 例 程 中 
设置 argc 和 argv. 
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从 一 个 段 切换 到 另 一 个 段 需 要 两 个 指示 符 : ends 和 segment。 前 者 结束 当前 段 ， 后 者 开始 一 
个 新 段 : 


(X86 data391)+= 391 399 389 
static int cseg; 


(X86 functions 390) += 380 393 390 
static void segment(n) int n; { 
if (n == cseg) 
return; 
if (cseg == CODE) 
print("_ TEXT ends\n"); 
else if (cseg == DATA || cseg == BSS || cseg == LIT) 
print("_DATA ends\n"); 
cseg = ni 
if (cseg == CODE) 
print("_TEXT segment\n"); 
else if (cseg == DATA || cseg == BSS || cseg == LIT) 
print("_DATA segment\n"); 
} 


export 要 求 指示 符 必须 出 现在 两 个 段 之 间 。CODE、DATA、LIT 和 BSS 都 是 用 正 值 表示 的 ， 所 以 
export 可 以 用 segment(0) 关闭 正在 使 用 的 段 ， 但 不 打开 新 段 。 
progbeg 将 cseg 置 为 0， 以 记录 后 端正 位 于 两 个 段 之 间 : 


(X86 progbeg 39! )+= 302 399 391 
cseg = 0; 


progend 产生 固定 指令 关闭 当前 程序 段 和 整个 汇编 程序 : 


(X86 functions 390) += 393 393 390 
static void progend®) { 
segment (0); 
printC"end\n"); 
} 


target 记录 需要 特定 寄存 器 的 操作 符 。clobber 调用 spill 溢出 并 重 取 被 少数 操作 符 重 写 的 忙 寄 
TEAN: 


(X86 functions 390 )+= 393 394 390 
static void target(p) Node p; { 
switch (p->op) { 
(X86 target 399) 
} 
} 


static void clobber(p) Node p; { 
static int nstack = 0; 


nstack = ckstack(p, nstack); 
switch (p->op) { 
(X86 clobber 402 ) 
} 
} 


上 述 switch 语句 中 与 操作 符 紧 密 相 关 的 分 支 处 理 部 分 将 在 下 一 节 中 介绍 。clobber 用 nstate 记录 
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浮 点 寄存 器 栈 的 高 度 。 当 progbeg 不 允许 分 配 这 些 寄 存 器 时 ， 同 时 也 禁止 溢出 这 些 寄 存 器 ， 所 以 
X86 的 代码 生成 器 必须 自己 处 理 浮 点 寄存 器 的 游 出 。ckstack 调整 nstate 来 记录 当前 指令 的 结果 : 
(X86 functions390)+= 393 397 390 
#define isfp(p) (optype((p)->op)==F |] optype((p)->op)==D) 


static int ckstack(p, n) Node p; int n; { 
int i; : 


for (i = 0; i < NELEMS(p->x.kids) && p->x.kids[iJ; i++) 
if Cisfp(p->x.kids[i])) 
n=} 
if Cisfp(p) && p->count > 0) 
n++; 
if (n > 8) 
error("expression too complicated\n"); 
return n; 


} 
for 循 环 弹出 源 寄存 器 ， 随 后 的 让 语句 将 计算 结果 压 栈 。 与 赋值 和 条 件 分 支 一 样 ， 浮 点 指令 作为 
副作用 执行 ， 没有 压 栈 操作 。 当 表达 式 过 于 复杂 (n>8 ) 时 ，ckstack 通知 程序 员 简化 表达 式 以 避 
免 溢 出 寄存 器 。 由 于 这 种 溢出 非常 少 ，Ice 仅 报告 错误 ， 这样 并 不 激怒 用 户 。 但 如 果 lcc 完全 忽略 
了 这 个 问题 ， 对 于 一 些 程序 可 能 产生 错误 代码 ， 这 一 点 是 不 可 接受 的 。 练 习 18.8 和 练习 18.9 说 
明了 相关 情况 。 


18.2 ”指令 的 选取 
K 18-3 总 结 了 X86 的 lburg 规范 中 的 非 终 结 符 。 此 表 概 括 了 loc 树 文法 的 组 织 。 
表 18-3 X86 的 非 终 结 符 


名 字 匹配 对 象 

acon 地 址 常量 

addr 针对 内 存 读 写 指令 的 地 址 计算 

addrj 针对 跳 转 指令 的 地 址 计算 

base 未 索引 的 地 址 计算 

cmpf 浮 点 比较 的 操作 数 

con 常量 

conl 整 型 常量 1 

con2 整 型 常量 2 

con3 整 型 常量 3 

fit 浮 点 操作 数 

index 带 索引 的 地 址 计算 

mem 一 般 操 作 符 使 用 的 内 存单 元 

memf 浮 点 操作 符 使 用 的 内 存单 元 

‘mr 内 存单 元 和 寄存 器 

mr0 内 存单 元 、 寄 存 器 和 内 存 代价 为 0 的 常量 
mrl 内 存单 元 、 寄 存 器 和 内 存 代 价 为 1 的 常量 
mr4 内 存单 元 、 寄 存 器 和 内 存 代价 为 3 的 常量 
re 寄存 器 和 常量 

rc5 寄存 器 cl 和 0 到 31 之 间 常 量 (不 包括 0 和 31) 
reg 计算 结果 在 寄存 器 中 的 运算 


stmt 副作用 产生 的 运算 
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整数 和 地 址 常量 都 直接 表示 : 


(X86 rules395 )= 395 390 
acon: ADDRGP "Xa" 
acon: con "%0"" 


基地 址 可 以 是 ADDRGP， 也 可 以 是 acon 与 通用 寄存 器 的 和 。 汇 编程 序 的 语法 规定 寄存 器 名 必须 
用 方 括号 括 起 来 : 


(X86 rujes395 )+= 5 395 390 
base: ADDRGP "%a" 
base: reg " [%0] " 


base: ADDI(reg,acon) "%1[%0]" 
base: ADDP(reg,acon) "%1[%0]" 
base: ADDU(reg,acon) "%1(%0]" 


如 果 寄 存 器 是 帧 指针 ， 那 么 计算 形 参 地 址 的 方法 与 计算 局 部 变量 的 方法 相同 : 


(X86 rules 395) += 395 395 390 
base: ADDRFP "%aLebp]" 
base: ADDRLP “%a[ebp]” 


有 些 地 址 使 用 一 个 索引 ， 表 示 寄 存 器 乘 上 1, 2, 4K 8: 


(X86 rules395 ) += $95 395 390 
index: reg "%0" 
index: LSHI(reg,conl) "%0*2" 
index: LSHI(reg,con2) "%0*4" 
index: LSHI(reg,con3) "%0*8" 


conl: CNSTI "1" range(a, L, 
conl: CNSTU "1" range(a, 1, 
con2: CNSTI "2" range(a, 2, 
con2: CNSTU "2" range(a, 2, 2) 
con3: CNSTI "3" range(a, 3, 
con3: CNSTU "3" range(a, 3, 


回顾 前 面 ， 在 计算 代价 表达 式 的 值 时 ，a 表示 被 标记 的 节点 ， 在 这 里 a 是 一 个 与 小 整数 进行 比较 
的 常量 值 。 无 符号 数 的 左 移 操作 等 价 于 整 型 移 位 : 


(X86 rules 395 ) 上 + 三 395 395 390 
index: LSHU(reg,conl) "%0*2" 
index: LSHU(reg,con2) "x0*4" 
index: LSHUCreg,con3) “%0*8" 


— HELE AT DE EOE EME SARS AYA. BIOS SERVE RCE AC (AIL 9.7 节 ): 


(X86 rules 395) += 395 395 390 
addr: base "%0" 
addr: ADDICindex,base) "%1[%0]" 
addr: ADDPCindex,base) "%1[%0]" 
addr: ADDUCindex,base) “%1[%0]" 


如 果 基 地 址 是 0， 那么 索引 本 身 就 作为 地 址 : 


(X86 rules 395)+= 395 396 390 
addr: index "If%0]" 
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许多 指令 接受 存储 器 操作 数 。 许 多 机 器 的 汇编 程序 将 数据 类 型 编码 在 指令 操作 码 中 ， 但 在 这 里 是 
由 操作 数 说 明 符 来 表示 数据 类 型 的 。word 表示 一 个 16 位 操作 数 ，dword 表示 一 个 32 位 操作 数 。 
(X86 rules395 ) += 395 396 390 
mem: INDIRC(addr) “byte ptr %0" 
mem: INDIRICaddr) “dword ptr %0" 


mem: INDIRP(addr) “dword ptr %0" 
mem: INDIRS(addr) “word ptr %0" 


X86 的 有 些 指令 可 以 接受 寄存 器 或 立即 数 操作 数 ， 有 些 指 令 可 以 接受 在 寄存 器 或 存储 器 中 的 操作 
数 ， 有 些 指令 3 种 形式 都 能 接受 : 


(X86 rules 395) += 386 396 390 
re reg “x0" 
re: con "%0" 


mr: reg "%0" 
mr: mem "%0" 


mrcO: mem "%0" 

mrc0: rc "%0" 
最 后 一 类 中 的 某 些 指令 访问 存储 器 时 无 任何 开销 ， 有 些 指令 也 许 要 花费 一 个 时 钟 周 期 ， 某 些 甚 至 
花费 3 个 时 钟 周期 : 


(X86 rules 395 )+= 396 396 390 
mrcl: mem “%0" 1 
mret: re "90" 


mrc3: mem "%O" 3 
mrc3: rc "%O" 


lea 指令 将 地 址 载 人 寄存 器 ，mov 指令 读 取 寄存 胡 、 常 量 或 存储 融 单 元 : 


(X86 rules395)+= 396 396 390 
reg: addr "lea %c,%0\n" 1 
reg: mrc0 "mov %c,%0\n" 1 


reg: LOADC(reg) “mov %c,%0\n" move(a) 
reg: LOADI(reg) “mov %c,%0\n" move(a) 
reg: LOADP(reg) “mov %c,%0\n" move(a) 
reg: LOADS(reg) “mov %c,%0\n" move(a) 
reg: LOADUCreg) “mov %c,%0\n" move(a) 


mov 指令 在 访问 存储 器 时 不 会 造成 额外 开销 ， 所 以 它 使 用 mrc0。 前 几 章 提 到 ， 代 价 函 数 move ik 
回 1， 而 且 将 节点 标记 为 “寄存 器 -寄存 器 ”的 复制 。emit、requate 和 moveself 可 以 合作 删除 一 


些 已 被 标记 的 指令 。 
如 果 整 型 加 法 和 减法 指令 访问 存储 器 ， 则 需要 花费 一 个 时 钟 周期 ， 所 以 使 用 mrcl: 
(X86 rules 395) += 306 397 390 


reg: ADDICreg,mrcl) "?mov %c,%O0\nadd %c,%1i\n" 1 
reg: ADDP(reg,mrcl) “?mov %c,%0\nadd %c,%1\n" 1 
reg: ADDUCreg,mrcl) “?mov %c,%O0\nadd %c,%1\n" 1 
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reg: SUBI(reg,mrcl) “?mov %c,%0\nsub %c,%i\n” 1 
reg: SUBP(reg,mrcil) “?mov %c,%O\nsub %c,%1\n" 1 
reg: SUBU(reg,mrcl) "?mov %c,%0\nsub %c,%1\n" 1 


位 操作 指令 也 类 似 : 


(X86 rules 395) += 396 397 390 
reg: BANDUCreg,mrcl) “?mov %c,%0\nand %c,%1\n" 1 
reg: BORU(reg,mrc1) “?mov %c,%0\nor %c,%1\n" 1 
reg: BXORU(reg,mrcl) “?mov %c,%0\nxor %c,%1\n" 1 
如 果 当 前 指令 重用 第 一 个 子 节点 的 目的 寄存 器 ， 汇 编程 序 模板 内 起 始 的 问号 标记 将 通知 emit 忽 
略 模板 中 的 第 一 条 指令 。 也 就 是 说 ， 如 果 %c 是 eax，%0 是 ebx，%1 是 ecx， 那 么 SUBU 模板 将 
产生 下 列 指令 : 
mov eax,ebx 
sub eax,ecx 


但 如 果 Ye 是 eax，%0 eax, %1 是 ecx， 那 么 该 模板 就 产生 下 列 指令 : 
sub eax,ecx 


二 元 操作 指令 会 破坏 指令 的 第 一 操作 数 ， 所 以 通常 开始 时 必须 复制 第 一 操作 数 到 目的 寄存 器 ， 但 

在 某 些 情况 下 复制 是 多 余 的 。 上 面 所 说 的 开销 只 是 估计 值 ， 因 为 只 有 在 分 配 了 寄存 器 后 ，lcc 才 

知道 是 否 需要 mov 指令 ， 这 时 再 选择 指令 为 时 已 晚 。 这 是 一 个 经 典 的 阶段 顺序 (phase-ordering ) 

问题 : 编译 器 必须 选择 指令 以 分 配 寄存 器 ， 但 是 又 必须 分 配 寄存 器 后 才能 准确 计算 指令 的 开销 。 
上 述 三 元 操作 有 一 种 变 体 可 以 修改 存储 器 单元 :有 些 操作 将 另 一 个 操作 数 固 定 为 1。 例 如 ， 
inc dword ptr i 

使 i 加 1。 


(X86 rules 395) += 397 398 390 
stmt: ASGNI(addr,ADDI(mem,con1)) "inc %1\n" memop(a) 
stmt: ASGNI (addr ,ADDU(mem,con1)) “inc %1\n" memop(a) 
stmt: ASGNP(addr,ADDP(mem,con1)) "inc %1\n" memop(a) 
stmt: ASGNI (addr ,SUBI(mem,con1)) “dec %1\n“ memop(a) 
stmt: ASGNI (addr ,SUBU(mem,con1)) “dec %1\n" memop(a) 
stmt: ASGNP(addr,SUBP(mem,conl)) “dec %1\n" memop(a) 


单个 操作 数 同时 标识 源 操 作 数 和 目的 操作 数 。memop 确定 树 的 形式 为 ASGNa(x,b(INDIR(X),c)): 


(X86 functions390 )+= 394 398 390 
.- » ae 
static int memop(p) Node p; { 
if (generic(p->kids[1]->kids[0]->op) == INDIR 
&& sametree(p->kids[0], p->kids[1]->kids[0]->kids[0])) 
return 3; 
else 
return LBURG_MAX; 
} 


memop 确定 树 的 整体 形状 ，sametree 判断 目的 操作 数 与 第 一 源 操作 数 是 否 相同 : 
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(X86 functions 390) += 397 490 390 
static int sametree(p, q) Node p, q; { 
return p == NULL && q == NULL 
I| p & q && p->op == q->op && p->syms[0] == q->syms[0] 
&& sametree(p->kids[0], q->kids[0]) 
&& sametree(p->kids[1], q->kids[1]); 


} 
二 元 操作 的 其 他 变 体 允许 第 二 操作 数 是 寄存 器 或 常量 : 
(X86 rules 395) += 397 398 390 


stmt: ASGNI(addr,ADDI(mem,rc)) “add %1,%2\n" memop(a) 
stmt: ASGNI(addr,ADDU(mem,rc)) “add %1,%2\n" memop(a) 
stmt: ASGNI (addr , SUBI (mem, rc)) "sub %1,%2\n" memop(a) 
stmt: ASGNI (addr, SUBU(mem, rc)) “sub %1,%2\n" memop(a) 


stmt: ASGNIi(addr,BANDU(mem,rc)) “and %1,%2\n" memop(a) 
stmt: ASGNI (addr , BORU(mem,rc)) “or %1,%2\n"  memop(a) 
stmt: ASGNI(addr,BXORU(mem,rc)) "xor %1,%2\n" memop(a) 


每 个 整 型 一 元 操作 都 将 破坏 它 唯一 的 操作 数 : 


(X86 rules395)+= 398 398 390 
reg: BCOMU(reg) “?mov %c,%0\nnot %c\n" 2 
reg: NEGI(reg) "?mov %c,%0\nneg %c\n” 2 


stmt: ASGNI(addr,BCOMU(mem)) “not %1\n" memop(a) 
stmt: ASGNI(addr,NEGI(mem)) “neg %1\n" memop(a) 


移 位 指令 与 其 他 二 元 整 型 指令 类 似 ， 只 是 移 位 的 距离 必须 是 常量 或 是 在 字 节 寄存 器 cl 内 ， 
即 在 寄存 器 ecx 的 低位 字 节 内 : 


(X86 rules 395)+= 398 399 390 
reg: LSHI(reg,rcS) "?mov %c,%0\nsal %c,%1\n" 
reg: LSHU(reg,rc5) "?mov %c,%0\nsh? %c,%1\n" 
reg: RSHI(reg,rc5) "?mov %c,%0\nsar %c,%1\n" 
reg: RSHU(reg,rcS) “?mov %c,%0\nshr %c,%1\n" 


NNN N 


stmt: ASGNI(addr,LSHi(mem,rcS)) “sal %1,%2\n" memop(a) 
stmt: ASGNI (addr ,LSHUCmem,rc5)) “shl %1,%2\n" memop(a) 
stmt: ASGNI (addr ,RSHI (mem, rc5)) "sar %1,%2\n" memop(a) 
stmt: ASGNI(addr,RSHU(mem,rcS)) "shr %1,%2\n" memop(a) 


rc5; CNSTI "%a" range(a, 0, 31) 
rc5: reg SeN 


值得 注意 的 是 ， 移 位 的 常量 必须 在 0 ~ 31 之 间 。 因 为 X86 的 汇编 程序 有 很 多 种 ， 所 以 有 些 汇编 
程序 也 许 会 对 未 定义 的 移 位 报错 。rtarget 把 所 有 0 ~ 31 (包含 0 和 31 ) 以 外 的 常量 放 入 cl 中。 


(is p->kids[1] a constant common subexpression? 398) = 399 
generic(p->kids[1]->op) == INDIR 
&& p->kids[1]->kids[0]->op == VREG+P 
&& p->kids[1]->syms [RX]->u.t.cse 
&& generic(p->kids[1]->syms[RX]->u.t.cse->op) == CNST 
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(X86 target 399)= 399 393 
case RSHI: case RSHU: case LSHI: case LSHU: 
if (generic(p->kids[1]->op) != CNST 
&& !((is p->kids[1] a constant common subexpression? 398))) { 
rtarget(p, 1, intreg[ECX]); 
setreg(p, intreg[EAX]); 


break; 


调用 setreg 确保 该 节点 不 会 定位 到 ecx。 否 则 模板 起 始 的 mov 指令 将 会 重 写 ecx， 这 时 cl 的 值 还 
没有 被 使 用 。eax 不 是 唯一 可 接受 的 寄存 器 ， 但 我 们 在 程序 测试 中 发 现 ， 不 是 常量 的 移 位 很 少见 ， 
所 以 不 值得 为 这 些 移 位 设计 一 个 不 包含 ecx 的 通配符 。 
乘法 指令 imul 表示 有 符号 整数 的 乘法 。imul 有 一 个 指令 变 体 表示 寄存 器 与 寄存 器 、 常 量 或 
存储 器 相 乘 
(X86 rules 395) += 398 399 390 
reg: MULICreg,mrc3) “?mov X%c,%O\nimul %c,%1\n" 14 


另 一 种 指令 变 体 使 用 3 个 操作 数 ， 它 将 常量 和 寄存 器 或 存储 器 单元 的 乘积 放 人 寄存 器 : 


(X86 rules395 )+= 399 399 390 
reg: MULI(con,mr) "mul %c,%1,%O\n" 13 

剩 下 的 乘法 指令 限制 更 多 。 例 如 ，mul 指令 表示 无 符号 整数 的 乘法 。 

(X86 rules 395)+= 399 490 390 


reg: MULU(reg,mr) “mul %1\n" 13 


mul 指令 默认 第 一 操作 数 在 eax 中 ， 指 令 结果 存 人 双 寄 存 器 edx-eax。 其 中 eax 放 结果 的 低位 字 
节 ， 除 非 操 作 溢 出 ， 和 否则 eax 存放 的 就 是 结果 。 在 溢出 的 情况 下 ，ANSI 称 其 为 结果 未 定义 ，eax 
仍然 可 以 作为 结果 : 


(X86 target 399 ) 十 三 39 490 393 
case MULU: 
setreg(p, quo); 
rtarget(p, 0, intreg[EAX]); 
break; : 


quo 和 rem 代表 寄存 器 对 eax-edx， 它 们 保存 无 符号 乘法 操作 的 结果 ; 在 除法 运算 中 ， 它 们 先 保存 
被 除数 。 除 法 完成 后 ，eax 保存 商 ，edx 保存 余数 。 


(X86 data391)+= 393 389 
static Symbol quo, rem; 


(X86 progbeg 391)+= 393 39) 
quo = mkreg("eax", EAX, 1, IREG); 
quo->x.regnode->mask |= 1<<EDX; 
rem = mkreg("edx", EDX, 1, IREG); 
rem->x.regnode->mask |= 1<<EAX; 


div 指令 表示 整数 除法 。 指 令 默 认 第 一 个 参数 在 寄存 器 对 edx-eax 中 ， 操 作 完 成 后 商 放 人 
eax， 余 数 放 入 edx: 
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(X86 target 399) += 

case DIVI: case DIVU: 
setreg(p, quo); 
rtarget(p, 0, intreg[EAX]); 
rtarget(p, 1, intreg[ECX]); 
break; 

case MODI: case MODU: 
setreg(p, rem); 
rtarget(p, 0, intreg[EAX]); 
rtarget(p, 1, intreg[ECx]); 
break; 


xor 指令 清空 edx， 为 无 符号 除法 做 准备 : 


(X86 rules395)+= 
reg: DIVU(reg,reg) “xor edx,edx\ndiv %1\n" 
reg: MODU(reg,reg) "xor edx,edx\ndiv %1\n” 


cdq 指令 将 eax 的 符号 位 扩展 到 edx 中 ， 为 有 符号 除法 做 准备 : 


(X86 rules395)+= 
reg: DIVI(reg,reg) “cdq\nidiv %1\n" 
reg: MODI(reg,reg) “cdq\nidiv %1\n" 
上 面 的 第 一 条 指令 会 改写 edx， 所 以 应 该 将 除数 放 到 其 他 地 方 。 一 种 方法 是 放 入 ecx。 这 种 限制 
其 实 没 有 必要 ， 只 是 因为 整数 除法 和 求 模 运算 并 不 常见 。 
整 型 和 指针 类 型 之 间 的 转换 没有 什么 意义 ， 可 通过 mov 指令 实现 。move 标记 这 些 指令 ， 和 希 
望 将 来 能 够 删除 它们 : 


(X86 rules 395 ) 十 三 


399 492 393 


400 400 390 
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reg: CVIU(reg) “mov %c,%0\n" move(a) 
reg: CVPU(reg) “mov %c,%0\n" move(a) 
reg: CVUI(reg) “mov %c,%0\n" move(a) 


reg: CVUP(reg) “mov %c,%0\n" move(a) 
movsx, movzx 与 mov 类 似 ， 不 同 之 处 在 于 ， 它 们 分 别 按 符 号 扩展 或 零 扩 展 对 输入 进行 加 宽 : 


(X86 rules395 ) 十 三 
reg: CVCICINDIRC(addr)) “movsx %c,byte ptr %0\n" 
reg: CVCUCINDIRC(addr)) “movzx %c,byte ptr %0\n" 
reg: CVSICINDIRS(addr)) “movsx %c,word ptr %0\n" 
reg: CVSUCINDIRS(addr)) “movzx %c,word ptr %0\n" 


movsx 和 movzx 也 能 操作 寄存 器 ， 但 是 源 操作 数 必须 是 8 位 或 16 位 子 寄存 器 ， 因 此 它们 需要 借 
助 emit2 : 


a 
400 400 390 
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(X86 rules395 ) += 40 401 390 
reg: CVCI(reg) “# extend\n" 3 
reg: CVCUCreg) “# extend\n" 3 
reg: CVSI(reg) “# extend\n" 3 
reg: CVSU(reg) “# extend\n" 3 
(X86 functions 390) += 398 402 390 


static void emit2(p) Node p; { 


X86 代码 的 竺 威 401 


(X86 emi t2 401) 
} 


(result 401)= 401 
p->syms [RX] ->x.name 


(X86 emi t2 401)= 401 401 
#define preg(f) ((f)[getregnum(p->x.kids[0])]->x. name) 


if (p->op == CVCI) 

print("movsx %s,%s\n", (result401), preg(charreg)); 
else if (p->op == CVCU) 

print("movzx %s,%s\n", (result401), preg(charreg)); 
else if (p->op == CVSI) 

printC"movsx %s,%s\n", (result40!), preg(shortreg)); 
else if (p->op == CVSU) 

print("movzx %s,%s\n", (result401), pregCshortreg)); 


将 整 型 变 窗 的 转换 也 需要 专门 的 处 理 : 


(X86 rules 395 ) + 三 400 401 390 
reg: CVIC({reg) "# truncate\n” 
reg: CVIS(reg) “# truncate\n" 
reg: CVUC(reg) “# truncate\n" 
reg: CVUS(reg) “# truncate\n” 


模板 "?mov Yc,%0\n" 和 代价 函数 move(a) 将 输入 转移 到 输出 ， 当 源 寄存 器 和 目标 寄存 器 相同 时 省 
WERE. mov 假设 源 操作 数 与 目的 操作 数 的 字 节 大 小 相同 ， 所 以 需要 mov 指令 时 ，emit2 将 
产生 一 条 mov 指令 ,但 这 条 mov 指令 的 源 寄 存 器 和 目标 寄存 器 都 是 16 位 的 ， 这 样 可 减轻 汇编 程 
序 ， 并 且 处 理 整 型 变 罕 转 换 时 能 保证 复制 足够 的 位 ; 
(X86 emit2 401) += 401 401 
else if (p->op == CVIC || p->op == CVIS 
|| p->op == CVUC || p->op == CVUS) { 
char *dst = shortreg[getregnum(p)]->x.name; 
char *src = preg(shortreg); 
if Cdst != src) 
print("mov %s,%s\n", dst, src); 
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} 
mov 指令 的 存 数 操作 与 取 数 操作 类 似 : 
(X86 rules 395) += 01 401 390 


stmt: ASGNC(addr,rc) "mov byte ptr %0,%1\n" 
stmt; ASCGNI(addr,rc) row dword ptr %0,%1\n" 
stmt: ASGNP(addr,rc) “mov dword ptr %0,%1\n" 
stmt: ASGNS(addr,rc) “mov word ptr %0,%1\n" 


ARGI, ARGP 4} 5) 455 ASGNI, ASGNP 类 似 ， 但 是 ARGI 和 ARGP 的 目标 指向 栈 顶 的 新 单元 。 
它们 使 用 push 指令 将 参数 压 栈 : 


(X86 rules 395)+= 41 402 390 
stmt: ARGI(mrc3) “push %0\n" 1 
stmt: ARGP(mrc3) "push %0\n" 1 
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尽管 和 直觉 不 同 ， 上 面 规则 中 使 用 mrc3 是 正确 的 。 即 使 下 面 两 条 指令 只 需要 2 个 时 钟 周期 ， 
push 0 也 要 花费 4 个 时 钟 周期 。 


mov eax,0 
push eax 


doarg 调用 mkactual 为 下 一 个 实 参 计算 栈 偏 移 量 ， 同 时 更 新 maxargoffset。 与 RISC 结构 的 机 
器 不 同 ，X86 结构 有 一 个 push 指令 ， 不 需要 mkactual 计算 栈 偏 移 。 但 由 于 在 调用 完成 后 ，call 
指令 需要 maxargoffset 从 栈 中 弹出 实 参 ， 因 此 doarg 仍然 会 调用 mkactual 来 计算 maxargoffset, 
docall 将 maxargoffset 存 人 CALL 节点 。 
(X86 functions390 ) += 400 403 390 
static void doarg(p) Node p; { 
mkactual(4, p->syms[0]->u.c.v.i); 
} 
ASGNB 复制 存储 器 块 。movsb 指令 根据 esi 内 的 地 址 值 从 对 应 的 内 存单 元 中 取 一 个 字 节 ， 然 
JA BLA edi 地 址 值 对 应 的 内 存单 元 ， 同 时 两 个 寄存 器 都 加 1。 串 指令 前 组 rep 将 后 级 指令 重复 ecx 
次 ， 所 以 rep movsb 从 esi 对 应 的 内 存单 元 复制 ecx 个 字 节 到 edi 对 应 的 内 存单 元 。target 计算 源 
地 址 和 目的 地 址 ， 然 后 放 人 esi 和 edi: 
(X86 target 399) += 400 492 393 
case ASGNB: 
rtarget(p, 0, intreg(EDI]); 


rtarget(p->kids[1], 0, intreg{ESI]); 
break; 


ASGNB 的 模板 将 块 的 大 小 存 人 ecx， 并 产生 rep movsb: 


(X86 rules 395)+= 41 402 390 
stmt: ASGNB(reg,INDIRB(reg)) "mov ecx,%a\nrep movsb\n" 


ARGB 的 操作 类 似 。 源 操作 数 是 ARGB 唯一 的 子 节 点 : 


(X86 target 399 ) 十 三 402 406 393 
case ARGB: 
rtarget(p->kids([0], 0, intreg[ESI]); 
break; 
目的 操作 数 固 定 为 栈 顶 ， 所 以 模板 开始 时 在 栈 顶 分 配 一 个 块 ， 并 使 edi 指向 栈 顶 : 
(X86 rules 395) += 42 493 390 


stmt: ARGBCINDIRB(reg)) "sub esp,%a\nmov edi,esp\n_ 
mov ecx,%a\nrep movsbNn” 
fep 修改 ecx, movsb 修改 esi 和 edi: 


(X86 clobber 402)= 
case ASGNB: case ARGB: 
spil1l(1<<ECX | 1<<ESI | 1<<EDI, IREG, p); 
break; 


这 里 不 需要 blk 程序 : 
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(X86 functions 390 )+= 402 407 390 
static void blkfetch(k, off, reg, tmp) 
int k, off, reg, tmp; {} 
static void blkstore(k, off, reg, tmp) 
int k, off, reg, tmp; {} 
static void blkloop(dreg, doff, sreg, soff, size, tmps) 
int dreg, doff, sreg, soff, size, tmps[]; {} 


程序 段 <interface routine names> 需要 静态 blk 程序 ， 它 出 现在 x86IR 中 ， 所 以 必须 定义 这 些 blk 
例 程 ， 但 是 这 些 例 程 不 会 被 调用 ， 因 此 它们 没有 任何 操作 。 

浮 点 指令 使 用 由 8 个 80 位 寄存 器 组 成 的 栈 。 所 有 的 临时 变量 值 都 是 80 位 。ANSI C 允许 计 
算 操作 使 用 额外 的 精度 ， 所 以 代码 生成 器 不 需要 产生 额外 的 代码 。 

有 些 浮 点 指令 的 某 个 操作 数 可 以 来 自 存储 器 。 操 作 数 〈 不 是 操作 符 ) 必须 指明 类 型 : 


(X86 rules395 )+= 402 493 390 
memf: INDIRD(addr) “qword ptr %0" 
memf: INDIRF (addr) "dword ptr %0" 


memf: CVFDCINDIRF(addr)) “dword ptr %0" 
fid 指令 表示 从 存储 器 中 读 取 浮 点 值 并 压 和 人 浮 点 栈 : 


(X86 rules395)+= 403 493 390 
reg: memf "fld %0\n" 3 


fstp 指令 表示 从 浮 点 栈 中 弹出 一 个 值 并 存 人 存储 器 : 


(X86 rules395 )+= 403 403 390 
stmt: ASGND(addr, reg) “fstp qword ptr *0\n" 7 
stmt: ASGNF(addr, reg) “fstp dword ptr %0\n" 7 


stmt: ASGNF(addr,CVDF(reg)) “fstp dword ptr %0\n" 7 
浮 点 参数 保存 在 存储 器 栈 里 ， 所 以 应 使 用 减法 指令 为 这 些 参数 分 配 空间 ， 然 后 使 用 fstp 指令 填充 
参数 空间 : 


(X86 rules395)+= 403 493 390 
stmt: ARGD(reg) “sub esp,8\nfstp qword ptr [esp]\n” 
stmt: ARGF(reg) "sub esp,4\nfstp dword ptr [esp]\n" 


一 元 操作 改变 浮 点 栈 栈 顶 的 元 素 。 例 如 ，fehs 指令 将 栈 顶 元 素 取 反 : 


(X86 rules 395) += 403 493 390 
reg: NEGD(reg) “fchsNr 
reg: NEGF(reg) “fchsNn” 


二 元 操作 处 理 浮 点 栈 栈 顶 的 两 个 元 素 ,， 或 者 处 理 一 个 栈 顶 元 素 和 一 个 存储 器 操作 数 : 


(X86 rules 395)+= 403 404 390 
flt: memf " %0" 
fit: reg “prst@) st" 


例如 ， 指 令 : 


fsubp st(1) ,st 
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从 栈 顶 下 的 第 一 个 元 素 st(1) 中 减 去 栈 顶 值 st， 然 后 将 st 弹出 (因为 有 后 级 p)， 清 除 被 减 值 。 
指令 : 

fsub qword ptr x 
从 栈 顶 减 去 64 位 的 x 值 。 这 里 没有 后 级 p， 所 以 浮 点 栈 的 高 度 不 会 变 。 其 他 二 元 操作 也 类 似 : 


(X86 rules395 )+= 403 404 390 
reg: ADDD(reg,fit) ‘“fadd%1\n" 
reg: ADDF(reg, fit) "“fadd%1\n" 
reg: DIVD(reg,flt) “fdiv%1\n" 
reg: DIVF(reg,flt) “fdiv%lNn” 
reg: MULD(reg,flt) "“fmu1%1\n" 
reg: MULF(reg,flt) "fmu1%1\n" 
reg: SUBD(reg,flt) "fsub%1\n" 
reg: SUBF(reg, flt) “fsub%1\n" 
由 于 浮 点 寄存 器 已 经 是 80 位 的 宽度 ， 不 需要 再 加 宽 ， 所 以 浮 点 到 双 精 度 的 转换 不 改变 浮 点 寄存 
器 。CVFD 不 需要 其 他 操作 : 
(X86 rules 395)+= 404 494 390 
reg: CVFD(reg) “# CVFD\n" 
X86 结构 中 没有 指令 能 直接 把 双 精 度数 缩小 成 浮 点 数 ， 所 以 必须 先 把 这 个 值 存 人 临时 浮 点 单元 ， 
把 值 缩小 ， 然 后 将 浮 点 值 重新 取 入 浮 点 寄存 器 ， 尽 管 这 将 再 次 加 宽 值 ， 但 是 已 经 丢弃 了 多 余 的 
精度 : 
(X86 rules 395) += 404 495 390 
reg: CVID(reg) "push %0\n_ 
fild dword ptr Of{esp]\nadd esp,4\n" 12 


从 双 精 度数 到 整数 的 转换 类 似 。 指 令 fistp 从 浮 点 栈 弹 出 双 精 度 值 ， 转 换 成 整 型 值 存 人 存储 器 : 


(X86 rules 395) += 404 404 390 
stmt: ASGNI(addr,CVDI(reg)) “fistp dword ptr %0\n" 29 


如 果 代 码 用 到 (通用 ) 寄存 器 中 的 整 型 结果 ， 则 需要 在 存储 器 栈 上 创建 、 使 用 、 释 放 一 个 临时 
变量 : 
(X86 rules 395 ) += 404 494 390 


reg: CVDI(reg) “sub esp,4\n_ 
fistp dword ptr O[esp]\npop %c\n" 31 


fild 指令 表示 取 一 个 整数 ， 将 其 转换 成 80 位 的 浮 点 值 并 压 入 浮 点 栈 : 


(X86 rules 395) += 404 404 390 
reg: CVIDCINDIRI(addr)) “fild dword ptr %0\n" 10 


如 果 操 作 数 来 自 (通用 ) 寄存 器 ， 则 需要 在 存储 器 栈 上 创建 、 使 用 、 释 放 另 一 个 临时 变量 ， 


(X86 rules 395) += 404 494 390 
reg: CVDF(reg) "sub esp,4\nfstp dword ptr O[esp]\n_ 
fld dword ptr O[esp]\nadd esp,4\n" 12 


jmp 指令 表示 无 条 件 跳 转 ， 它 的 操作 数 可 以 是 标号 、 寄 存 器 或 存储 器 单元 : 
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(X86 rules 395) += 404 05 390 
addrj: ADDRGP “%a" 
addrj: reg "*O" 2 
addrj: mem TAS. id 
stmt: JUMPVCaddrj) “jmp %0\n" 3 
stmt: LABELV “*%a:\n" 


条 件 分 支 指令 首先 比较 两 个 值 ， 当 条 件 满足 时 执行 分 支 。cmp 指令 实现 比较 并 有 多 种 变 体 。 一 种 
是 存储 器 单元 与 寄存 器 或 常量 做 比较 。 有 符号 整数 总 共有 6 种 关系 : 


(X86 rules395 ) += 405 495 390 
stmt: EQI(mem,rc) “cmp %0,%1\nje %a\n" 
stmt: GEI(mem,rc) “cmp %0,%1\njge %a\n" 
stmt: GTI(mem,rc) “cmp %0,%1\njg %a\n" 
stmt: LEI(mem,rc) “cmp %0,%1\njle %a\n" 
stmt: LTI(mem,rc) "cmp %0,%1\njl %a\n" 
stmt: NEI(mem,rc) "cmp %0,%1\njne %a\n“ 


因为 EQI 和 NEI 也 适用 于 无 符号 整数 ， 所 以 无 符号 整数 只 有 4 种 关系 : 


(X86 rules 395)+= 405 495 390 
stmt: GEU(mem,rc) “cmp %0,%1\njae %a\n" i 
stmt: GTU(mem,rc) “cmp %0,%l\nja %a\n" 
stmt: LEU(mem,rc) “cmp %0,%1\njbe %a\n" 
stmt: LTU(mem,rc) "cmp %0,%1\njb %a\n" 5 


cmp 的 另 一 种 变 体 是 寄存 器 与 常量 、 存 储 器 单元 或 另 一 个 寄存 咒 做 比较 ， 为 此 ， 我 们 重复 上 面 有 
关 有 符号 和 无 符号 的 规则 : 


(X86 rules 395) += 405 495 390 
stmt: EQI(reg,mrcl) “cmp %0,%1\nje %a\n" 4 
stmt: GEI(reg,mrcl) “cmp %0,%1\njge %a\n" 4 
stmt: GTI(reg,mrcl) “cmp %0,%1\njg %a\n" 4 
4 
4 
4 
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stmt: LEI(reg,mrcl) "cmp %0,%1\njle %a\n" 
stmt: LTI(reg,mrcl) “cmp %0,%1\nj1 %a\n" 
stmt: NEICreg,mrcl) "cmp %0,%1\njne %a\n" 


stmt: GEUC(reg,mrcl) “cmp %0,%1\njae %a\n" 4 
stmt: GTU(reg,mrcl} “cmp %0,%1\nja %a\n" 4 
stmt: LEUCreg,mrcl) “cmp %0,%1\njbe %a\n" 4 
stmt: LTUCreq.mrcl) “cmp %0.%1\nib %a\n" 4 


指令 fcomp x 从 浮 点 栈 中 弹出 一 个 元 素 ， 将 它 与 存储 器 中 的 操作 数 x 做 比较 。 变 体 fcompp 


的 两 个 比较 操作 数 都 来 自 浮 点 栈 。 非 终结 符 cmpf 允许 一 条 规则 产生 两 个 变 体 : 


(X86 rules 395)+= 405 496 390 
cmpf: memf " %0" 
cmpf: reg "p" 
与 cmpf 类 似 的 非 终 结 符 ft (定义 见 第 403 页 ) 并 不 这 样 做 ， 因 为 汇编 程序 需要 st(1), st 用 于 二 
元 操作 ， 但 禁止 st(1)，st 用 于 feomp. feomp 将 比较 的 结果 存 人 某 些 机 器 标记 。 指 令 fststw ax 将 
标记 存 人 eax 的 底部 ， 然 后 指令 sahf 将 它们 载 人 由 条 件 分 支 指令 检测 的 标记 中 : 
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(X86 rules395 ) += 405 406 390 
stmt: EQD(cmpf,reg) "“fcomp%0\nfstsw ax\nsahf\nje %a\n" 
stmt: GED(cmpf,reg) "“fcomp%0\nfstsw ax\nsahf\njbe %a\n" 
stmt: CTDCcmpf, reg) "“fcompX0\nfstsw ax\nsahf\njb %a\n" 
stmt: LED(cmpf,reg) "“fcomp%0\nfstsw ax\nsahf\njae %a\n" 
stmt: LTD(cmpf,reg) "fcomp¥0\nfstsw ax\nsahf\nja %a\n" 
stmt: NED(cmpf,reg) "fcomp%O\nfstsw ax\nsahf\njne %a\n" 


stmt: EQF(cmpf,reg) "fcomp%0\nfstsw ax\nsahf\nje %a\n" 
stmt: GEF(cmpf,reg) "“fcompX0\nfstsw ax\nsahf\njbe %a\n" 
stmt: GTF(cmpf,reg) "“fcomp%0\nfstsw ax\nsahf\njb %a\n" 
stmt: LEF(cmpf, reg) “fcompX%0\nfstsw ax\nsahf\njae %a\n”" 
stmt: LTF(cmpf,reg) "“fcomp%0\nfstsw ax\nsahf\nja %a\n" 
stmt: NEF(cmpf,reg) “fcompX%O\nfstsw ax\nsahf\njne %a\n" 


clobber 记录 了 浮 点 条 件 分 支 对 eax 的 破坏 : 


(X86 clobber 402)+= 402 406 393 
case EQD: case LED: case GED: case LTD: case GTD: case NED: 
case EQF: case LEF: case GEF: case LTF: case GTF: case NEF: 

spil1(1<<EAX, IREG, p); 


break; - 
指令 call 把 下 一 条 指令 的 地 址 压 人 栈 ， 然 后 跳 转 至 指令 操作 数 所 指定 的 地 址 : 
(X86 rules395)+= 405 496 390 


reg: CALLI(addrj) “call %0\nadd esp,%a\n" 
stmt: CALLV(addrj) "call %0\nadd esp,%a\n" 
调用 完成 后 ， 指 令 add 将 参数 弹出 栈 。 前 端 把 每 个 调用 节点 的 syms[0] 指向 一 个 符号 ， 该 符号 等 
于 实 参 的 字 节 数 ，%a 表示 产生 该 数 。 返 回 值 存 人 eax: 
(X86 target 399 )+= 402 393 


case CALLI: case CALLV: 
setreg(p, intreg[EAX]); 


break; 
case RETI: 
rtarget(p, 0, intreg[EAX]); 
break; 
浮 点 函数 将 返回 值 存 人 浮 点 寄存 器 栈 顶 : 
(X86 rules395 )+= 406 497 390 
reg: CALLF(addrj) “call %0\nadd esp,%a\n" 
reg: CALLD(addrj) “call %0\nadd esp,%a\n" 
(X86 clobber 402)+= 406 393 


case CALLD: case CALLF: 
spill(1<<EDX | 1<<EAX, IREG, p); 
break; 


与 通常 情况 一 样 ， 存 在 返回 节点 ， 但 返回 节点 主要 用 于 指导 寄存 器 定位 ， 并 不 产生 代码 ; 
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(X86 rules395)+= 46 390 
stmt: RETI(reg) “# ret\n" 
stmt: RETF(reg) "“# ret\n" 
stmt: RETD(reg) "“# ret\n" 


18.3 ”函数 的 实现 


前 端 调用 local 通知 局 部 变量 和 前 端 生成 的 临时 变量 。 代 码 生成 器 不 给 浮 点 局 部 变量 指派 寄 
存 咒 ， 甚 至 不 给 浮 点 临时 变量 指派 寄存 器 ， 所 以 local 一 开始 就 把 这 些 变 量 压 人 栈 : 


(X86 functions 390)+= 403 497 390 
static void local(p) Symbol p; { 
if Cisfloat(p->type)) 
p->sclass = AUTO; 
if (askregvar(p, rmap[ttob(p->type)]) == 0) 
mkauto(p); 


因为 代码 生成 器 会 给 整 型 临时 变量 指派 寄存 器 ， 所 以 浮 点 局 部 变量 与 整 型 局 部 变量 的 处 理 过 程 
是 不 同 的 。 代 码 生 成 器 也 不 给 其 他 的 局 部 变量 指派 寄存 器 ， 但 progbeg 清空 vmask[IREG]， 指 导 
askregvar 保存 真正 的 寄存 器 变量 。 

前 端 调用 接口 过 程 function 通知 一 个 新 的 例 程 : 


(X86 functions 390) += 407 499 390 
static void function(f, caller, callee, n) 
Symbol f, callee[{], caller[{]; int n; {£ 
int i; 
(X86 function 407) 
+ 


function 产生 函数 头 人 代码， 包括 一 个 标记 以 及 存储 ebx, esi, edi, ebp 的 指令 ; 


(X86 function 407 ) 三 407 407 
print("%s:\n", f->x.name); 
print("push ebx\n"); 
print("push esi\n"); 
print("push edi\n"); 
printC"push ebp\n"); 
print("mov ebp,esp\n"); 


函数 头 代码 也 更 新 ebp。 图 18-1 显示 了 X86 的 帧 。 
接 下 来 ，function 清除 寄存 器 分 配器 的 状态 ， 并 计算 每 个 输入 参数 的 栈 偏 移 量 。 第 一 个 输入 
参数 距离 当前 ebp 20 个 字 节 : 16 个 字 节 用 于 存储 寄存 器 ，4 个 字 节 用 于 存储 返回 地 址 。 
(X86 function 407)+= 407 408 407 
{clear register state 319) 
offset = 16 + 4; 


for (i = 0; callee[il; i++) { 
(assign offset to argument i 408) 
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图 18-1 X86 的 帧 
offset 给 出 了 下 一 个 参数 到 ebp 的 偏 移 。 它 决定 了 被 调用 程序 和 调用 程序 的 参数 视图 的 x.offset 和 


x.name dk; 


(assign offset to argument i 408 )= 407 
Symbol p = callee[i]; 
Symbol q = caller[i]; 
p->x.offset = q->x.offset = offset; 
p->x.name = q->x.name = stringf("%d", p->x.offset); 
p->sclass = q->sclass = AUTO; 
offset += roundup(q->type->size, 4); 


sclass 域 设 置 为 AUTO， 以 记录 没有 参数 被 指派 给 寄存 器 。 然 后 调整 offset 处 理 下 一 个 参数 ， 并 
保持 栈 对 齐 。 

接着 ，function 调用 gencode 处 理 例 程 的 主体 。 它 首先 重 置 offset 和 maxoffset， 记 录 还 未 分 
配 局 部 变量 : 


(X86 function 407) += 407 498 407 
offset = maxoffset = 0; 
gencode(caller, callee); 
framesize = roundup(maxoffset, 4); 
if (framesize > 0) 
print("sub esp,%d\n", framesize) ; 


当 gencode 返回 时 ， 在 gencode 的 生存 周期 内 offset 的 最 大 值 保 存在 maxoffset 中 ， 所 以 分 配 剩余 
帧 的 代码 现在 可 以 放 进 函数 头 代 码 里 。function 接着 调用 emitcode 产生 例 程 的 主体 ，emitcode FL 
接 调 用 print 生成 函数 尾 代 码 。 函 数 尾 代码 只 执行 恢复 函数 头 代码 的 操作 : 


CE 
(X86 function 407)+ 三 408 407 
emitcode() ; 
print("mov esp,ebp\n"); 
printC"pop ebp\n"); 
printC"pop edi\n"); 
print("pop esi\n"); 
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print("pop ebx\n"); 
print("ret\n"); 


18.4 数据 的 定义 
前 端 调用 defsymbol 函数 通知 每 个 新 的 符号 ; 


(X86 functions 390) += 407 499 390 
static void defsymbol(p) Symbol p; { 
(X86 defsymbo1 409 ) 
} 
每 个 静态 局 部 符号 都 有 唯一 的 生成 名 字 ， 以 避免 与 其 他 静态 局 部 符号 重 名 : 
(X86 defsymbol 409 ) 三 409 409 


if (p->scope >= LOCAL && p->sclass == STATIC) 
p->x.name = stringf("L%d", genlabel(1)); 


生成 的 符号 已 经 有 了 唯一 的 数字 名 ，defsymbol 在 名 字 前 面 加 上 一 个 字母 前 级 ， 使 之 成 为 合法 的 
汇编 标识 符 : 


(X86 defsymbo1 409 ) += 409 409 409 
else if (p->generated) 
p->x.name = stringf("L%s", p->name); 


根据 约定 ，defsymbol 在 输出 的 全 局 符号 名 字 前 加 一 条 下 划 线 : 


(X86 defsymbo1 409)+= 409 409 
else if (p->scope == GLOBAL || p->sclass == EXTERN) 
p->x.name = stringf("_%s", p->name); 


十 六 进 制 的 常量 名 必须 重 定 格式 。 如 前 端 使 用 0x 伴 ，X86 汇编 程序 则 用 0ffH: 


(X86 defsymbo1409 )+= 409 499 409 
else if (p->scope == CONSTANTS 
&& Cisint(p->type) || isptr(p->type)) 
&& p->name(0] == '0' && p->name[1] == 'x') 
p->x.name = stringf("O%sH", &p->name[2]); 


对 于 剩余 的 符号 ， 如 十 进 制 常量 和 静态 全 局 符号 ， 前 端 和 后 端 共用 一 个 名 字 : 


an 


(X86 defsymbol 409) += 409 409 
else 
p->x.name = p->name: 


接口 过 程 address 使 用 偏 移 量 算法 (如 _up+28 ) 计算 符号 的 偏 移 量 ，defsymbol 对 普通 符号 也 这 
么 做 : 


(X86 functions 390)+= 409 410 390 
static void address(q, p, n) Symbol q, p; int n; { 
if (p->scope == GLOBAL 
|| p->sclass == STATIC || p->sclass == EXTERN) 
q->x.name = stringf("%s%s%d", 
p->x.name, n >= 0? "4" 2: "", n); 
else { 
q->x.offset = p->x.offset + n; 
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q->x.name = stringd(q->x.offset) ; 
} 
} 
对 于 栈 上 的 变量 ，address 仅 计算 调整 后 的 偏 移 量 。 对 于 以 标记 寻 址 的 变量 ，address 将 x.name 设 
置 成 形 如 name +n 的 字 串 。 如 果 偏 移 量 是 正 的 ， 那 么 由 文字 “ +” 产生 操作 符 ， 如 果 偏 移 量 是 负 
的 ， 由 %d 产生 操作 符 。 
前 端 调 用 defconst 产生 汇编 指示 符 ， 该 指示 符 分 配 并 将 一 个 标量 初始 化 成 常量 。 参 数 ty 识别 
联合 v 中 相应 的 成 员 : 
(X86 functions390 )+= 409 410 390 
static void defconst(ty, v) int ty; Value v; { 
switch (ty) { 
(X86 defconst 410) 
} 
} 
大 部 分 的 case 分 支 只 是 发 送 一 个 成 员 到 汇编 指示 符 ， 它 的 作用 是 分 配 并 初始 化 一 个 ty 类 型 的 
单元 : 


{X86 defconst 410)= 410 410 
case C: print("db %d\n", v.uc); return; 
case S: print("dw %d\n", v.SS); return; 


case I: print€"dd_%d\n", v.i ); return; 
case U: print("dd O%xH\n", v.u ); return; 
case P: print("dd O%xH\n", v.p ); return; 


汇编 程序 的 real4 和 real8 指示 符 不 能 表示 由 任意 表达 式 计 算 产 生 的 浮 点 常量 ， 例 如 类 型 转换 得 
到 的 浮 点 常量 ， 所 以 defconst 不 使 用 它们 ， 而 是 产生 十 六 进 制 的 浮 点 常量 : 


(X86 defconst 410 )+ 三 #10 410 410 
case F: : 
print("dd O%xH\n", *Cunsigned *)&v.f); 
return; 


如 果 loo 在 低位 优先 的 机 器 上 运行 ， 但 为 高 位 优先 的 机 器 编译 代码 ， 则 双 精 度数 的 两 个 部 分 必须 
交换 ， 反 之 亦 然 : 


(X86 defconst 410)+= 410 410 
case D: { 
unsigned *p = (unsigned *)&v.d; 
print ("dd 0%xH,O%xH\n", p[swap], p[1 - swap]); 
return; 


} 
接口 过 程 defaddress 给 指针 分 配 空间 ， 并 用 符号 地 址 将 其 初始 化 : 


(X86 functions390 ) += 470 441 390 
static void defaddress(p) Symbol p; { 
print("dd %s\n", p->x.name); 
} 


defconst 的 指针 分 支 将 指针 初始 化 为 数字 地 址 。 
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接口 过 程 defstring 产生 指示 符 ， 初 始 化 一 组 字 节 : 


(X86 functions 390)+= 410 411 390 
static void defstring(n, str) int n; char *str; { 
char *s; 


for (s = str; 5 < str + n; s+) 
print("db ¥d\n", (*s)&0377); 
} 
因为 ANSIC 的 转 义 码 允 许字 符 串 中 包含 空 字 节 ， 所 以 defstring 通过 计数 找到 字符 串 的 结尾 。 
前 端 调用 export 将 当前 模块 中 的 符号 展示 给 其 他 模块 。 汇 编 指示 符 public 的 作用 也 是 如 此 : 
(X86 functions 390)+= 411 411 390 


static void export(p) Symbol p; { is 
print("public %s\n", p->x.name); 


extern 指示 符 使 当前 模块 可 以 访问 其 他 模块 的 输出 符号 ， 但 是 该 指示 符 不 能 出 现在 段 内 ， 所 以 接 
口 过 程 import 需要 临时 从 当前 段 切换 出 来 : 
(X86 functions 390)+= ati 441 390 


static void import(p) Symbol p; { 
int oldseg = cseg; 


if (p->ref > 0) í 
segment (0) ; 
print("extrn %s:near\n", p->x.name) ; 
segment (aldseg) ; 


} 


指示 符 near 声明 外 部 符号 可 以 直接 寻 址 。 平 坦 内 存 模式 和 它 的 32 位 地 址 允许 为 任何 符号 直接 寻 
址 ， 所 以 不 必 理 解 near 和 相关 指示 符 ， 除 非 是 正在 生成 分 段 的 代码 ， 这 更 加 困难 。 

X86 中 segment 的 实现 必须 要 注意 segment(0) 的 调用 ，segment(0) 切换 出 当前 段 但 并 不 进 
入 新 的 段 。 因 为 有 些 X86 目标 代码 连接 器 禁止 不 必要 的 extrms， 所 以 只 在 符号 会 被 使 用 的 时 候 ， 
import 才 检 查 符 号 的 ref 域 ， 生 成 指示 符 。 

前 端 调用 接口 过 程 global 来 定义 一 个 新 的 全 局 符号 。 如 果 这 个 符号 被 初始 化 ， 则 前 端 接着 
调用 defconst， 所 以 global 只 为 那些 没有 初始 化 的 全 局 符号 分 配 空间 ， 这 些 全 局 符号 都 在 BSS 
Bh: 

(X86 functions 390)+= 个 442 390 
static void global(p) Symbol p; { 
printC"align %d\n", 
p->type->align > 4 ? 4 : p->type->align); 
print("%s label byte\n", p->x.name); 
if (p->u.seg == BSS) 


print("db %d dup (0)\n", p->type->size); 
} 


前 端 调 用 接口 过 程 space 以 定义 初始 化 为 0 的 全 局 数据 块 : 
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(X86 functions 390) += 
static void space(n) int n; { 
if (cseg != BSS) 
print("db %d dup (0)\n", n); 


深入 阅读 


有 多 种 参考 手册 详细 描述 了 X86 机 器 的 结构 (Intel Corp，1993 )。 微 软 的 MASM 和 Borland 


的 Turbo Assembler 的 汇编 程序 手册 介绍 了 X86 的 汇编 语言 ， 特 别 是 控制 不 同 存储 器 模式 的 汇编 
指示 符 。 


练习 


18.1 


18.2 


18.4 


18.5 


18.6 


18.7 


18.8 
18.9 


浏览 X86 的 参考 手册 ， 注 意 那些 在 lcc 中 没 用 到 的 指令 。 加 入 一 些 规则 产生 这 些 指令 。 在 每 次 修改 之 
前 和 之 后 测试 编译 器 ， 评 价 你 所 做 的 改动 。 
一 些 loo 的 操作 码 是 可 交换 的 ， 这 意味 着 对 于 每 条 规则 : 


reg: ADDI(reg,mrcl) “mov %c,%0\nadd %c,%1\n" 2 
都 有 规则 : 
reg: ADDI(mrcl,reg) "mov %c,%1\nadd %c,%0\n" 2 


增加 一 些 交 换 规 则 ， 哪 些 规则 会 带 来 明显 的 不 同 ?” 哪 些 规则 因为 在 前 端 不 可 能 生成 而 不 会 有 区 别 ? 

某 些 非 可 交换 的 操作 有 对 称 的 规则 ， 这 些 规则 用 于 交换 操作 数 。 例 如 ， 规则; 

stmt: GTI(reg,mrcl) “cmp %0,%1\njg %a\n" 2 

有 对 称 的 规则 : 

stmt: GTI(mrcl,reg) “cmp %1,%0\njl %a\n" 2 

这 是 因为 x>y “4 BAY y<x。 请 找 出 有 用 的 X86 对 称 规则 。 

rep movsb 每 次 复制 ecx 个 字 节 ， 而 rep movsw 每 次 复制 ecx 个 16 位 单元 ， 后 者 比 前 者 差不多 快 两 倍 ， 
rep movsd 每 次 复制 ecx 个 32 位 单元 ， 又 比 rep movsw 几乎 快 两 倍 。 尽 可 能 利用 这 些 指令 ， 修 改 块 复 
制 的 代码 。 

即便 程序 不 使 用 ebx esi 和 edi, 1ce 的 函数 头 代码 和 函数 尾 代 码 也 会 保存 并 恢复 它们 。 修 正 这 一 缺陷 ， 
看 这 是 否 值得 。 

保留 一 个 寄存 器 ， 并 将 其 分 配给 最 有 利 的 局 部 变量 。 评 价 一 下 改进 的 程度 。 重 复 该 实验 ,保留 更 多 的 
寄存 器 。 这 类 寄存 器 数目 取 什 么 值 具有 最 好 的 效果 。 

对 于 fti+1) 中 的 加 法 ，lcc 会 产生 代码 lea edi,1[edi]。 我 们 更 希望 产生 代码 inc edi， 但 是 想 让 X86 的 代 
码 生 成 器 为 这 类 特殊 情况 产生 该 代码 非常 困难 。 请 解释 其 中 的 原因 。 

构造 一 个 C 的 小 程序 ， 引 发 ckstack 的 诊断 信息 。 

修改 X86 的 代码 生成 器 ， 使 其 不 依靠 程序 员 的 帮助 就 能 溢出 和 恢复 浮 点 寄存 器 。 参 看 关于 ckstack 的 
Wit. 
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lec 是 构造 C 编译 器 的 一 种 方法 。 在 lee 的 设计 与 实现 过 程 中 对 数 以 百 计 的 技术 策略 进行 了 
选择 ， 这 些 策略 中 的 许多 都 是 可 行 的 方法 。 在 前 面 章节 的 练习 中 我 们 也 给 出 了 一 些 不 同 的 策略 。 
本 章 主要 是 回顾 lee 的 设计 并 讨论 一 些 全 局 的 设计 策略 ， 这 些 策略 对 当前 的 编译 器 实现 起 了 重要 
作用 。 这 些 策略 具有 很 好 的 实际 效果 ， 可 能 是 目前 的 优先 选择 。 

lee 中 运用 了 许多 编程 技巧 ， 比 如 第 2 章 的 存储 分 配器 和 2.5 节 的 字符 串 管理 ,它们 都 可 应 用 
于 更 广泛 的 领域 。 第 3 章 的 符号 表 模 块 ， 虽然 只 用 在 lee 中 , 但 只 需 较 少 的 改动 ， 它 就 能 应 用 于 
功能 相似 的 其 他 领域 。6.1 节 的 输入 模块 能 用 于 任何 需要 高 速 输入 的 地 方 。 

第 8 章 讲述 的 语法 分 析 技 术 可 以 用 于 需要 语法 分 析 和 计算 表达 式 的 应 用 中 ， 例 如 电子 数据 
表 。 除 了 第 14 章 的 选择 指令 外 ，lburg 还 有 更 广 的 应 用 。 由 lburg 生成 的 匹配 器 与 loo 的 节点 联系 
并 不 紧密 ， 它 们 可 以 用 于 树 的 匹配 模式 问题 。lburg 所 体现 出 的 思想 ， 即 根据 重要 属性 的 简短 说 
明 来 生成 程序 ， 已 获得 广泛 应 用 。 其 他 编译 器 也 通常 采用 这 种 思想 ， 借 助 LEX、YACC 之 类 的 工 
具 生 成 词法 分 析 器 和 语法 分 析 器 。 


19.1 数据 结构 


由 于 共享 的 数据 结构 不 多 ， 因 此 我 们 能 很 好 地 处 理 前 端 与 代码 生成 器 之 间 数 据 结构 的 共享 。 
这 种 方法 的 一 个 不 足 之 处 在 于 : 比较 其 他 简单 的 设计 方法 ， 这 些 结构 更 为 复杂 。 例如， 所 有 表示 
标识 符 的 符号 都 跨 过 了 接口 。 符 号 有 许多 域 ， 其 中 有 些 只 与 前 端 相关 ， 对 它们 的 访问 只 能 通过 约 
定 进行 规范 。 有 些 符 号 仅 使 用 某 些 域 ， 比 如 标号 就 只 用 到 name WA u.l 中 的 域 。 如 果 采 用 专门 适 
合 于 标号 的 数据 结构 可 能 更 容易 理解 一 些 。 

许多 人 认为 C 语言 导致 了 这 一 复杂 性 : 要 描述 所 有 可 能 的 情况 需要 一 个 比 C 更 为 庞大 的 类 
型 系统 。 用 定义 单独 结构 的 方法 可 以 减少 某 些 复杂 程度 例如， 每 种 符号 用 一 种 结构 来 描述 ， 用 
另 一 种 结构 来 描述 私有 的 前 端 数据 ， 但 这 样 做 使 数据 结构 变 得 更 大 而 更 复杂 了 。 带 继承 的 类 型 
系统 简化 了 结构 变 体 的 定义 ， 也 不 增加 使 用 那些 变 体 的 复杂 性 。 对 面向 对 象 的 程序 语言 来 说 ， 如 
Oberon-2、Modual-3 和 C++， 它 们 的 类 型 系统 必须 用 到 这 种 机 制 。 在 这 些 语言 中 ， 我们 定义 了 一 
个 基本 的 符号 类 型 ， 它 只 包含 所 有 符号 都 具有 的 域 ， 然 后 我 们 为 每 种 符号 设 定 不 同类 型 ， 这 些 类 
型 通过 继承 来 对 基本 类 型 进行 扩展 ， 增 加 特殊 的 域 。 

比如 在 Modula-3 中 ， 基 本 类 型 定义 如 下 ; 


TYPE Symbol = OBJECT 
name: TEXT 
END; 


这 里 定义 了 一 个 对 象 类 型 ， 它 只 有 一 个 域 name， 存 放 字 符 串 。 如 果 要 定义 标号 类 型 ， 只 需 在 基 
本 类 型 中 加 入 特定 的 域 : 


TYPE Label = Symbol OBJECT 
label: INTEGER; 
equatedto: Label 
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这 里 定义 的 Label 是 一 种 对 象 类 型 ， 它 除了 具有 Symbol 的 所 有 域外 ， 还 有 两 个 标号 特有 的 域 。 
因为 Label 也 是 Symbol， 处 理 Symbol 的 过 程 也 可 以 处 理 Label。 

这 种 机 制 在 其 他 数据 结构 中 也 有 用 ， 如 类 型 、 树 和 节点 。 例 如 后 端的 扩展 〈symbol 和 node 
中 的 x 域 ) 是 不 必要 的 ， 因 为 后 端 能 定义 附加 类 型 ， 这 些 类 型 可 以 对 前 端的 类 型 进行 扩展 ， 增 加 
与 目标 机 器 相关 的 域 。 

使 用 面向 对 象 的 程序 语言 支持 方法 ， 即 与 特定 类 型 的 值 相关 、 对 这 些 值 进行 操作 的 过 程 ， 可 
以 替代 某 些 接口 函数 ， 此 外 ， 由 于 这 些 方法 只 能 应 用 于 特定 的 类 型 ， 所 以 它们 可 以 消除 switch 语 
kj, 我们 在 defconst 的 实现 中 遇 到 过 这 些 switch 语句 。 


19.2 接口 


lce 剔除 了 许多 宛 余部 分 并 做 了 简单 性 的 假定 ， 因 此 它 的 代码 生成 接口 很 紧凑 《〈compact)。 但 
是 这 些 省 略 和 假定 限制 了 接口 在 其 他 语言 和 机 器 上 的 应 用 能 力 。 

lee 的 接口 假定 有 符号 和 无 符号 整数 以 及 长 整数 都 具有 相同 的 长 度 。 这 种 假定 使 得 lcc 只 要 处 
HE 9 种 类 型 后 级 和 108 种 与 类 型 相关 的 操作 ， 但 在 一 些 64 位 机 器 上 会 变 得 更 加 复杂 。 如 果 需 要 
多 次 使 用 ， 我 们 或 许 应 该 用 类 型 后 缀 区 分 有 符号 字符 和 无 符号 的 字符 、 长 整数 、 整 数 ， 以 及 浮 点 
数 、 双 精度 浮 点 数 和 长 双 精 度 浮 点 数 。 我 们 有 时 还 考虑 将 这 些 类 型 返回 lcce， 尽 管 这 样 做 很 烦琐 。 
例如 ， 为 长 双 精 度 浮 点 数 定义 一 个 后 级 ， 就 要 在 前 端 和 后 端 中 增加 19 种 操作 和 代码 对 其 进行 处 
理 。 这 种 改进 不 需要 在 很 多 地 方 增加 代码 ， 只 在 需要 的 地 方 加 入 若 于 行 代码 即 可 。 另 一 种 方法 
是 用 后 缀 描述 数据 类 型 ， 而 非 字 长 ， 然 后 再 增加 一 个 后 缀 来 表示 字 长 。 比 如 ADDI2 和 ADDI4 分 
别 表示 2 字 节 和 4 字 节 的 整数 加 法 。 字 长 标识 也 可 以 表示 在 node 中 ， 而 不 是 表示 在 操作 符 的 名 
字 中 。 

接口 假定 所 有 指针 的 表示 相同 。 这 种 假定 使 得 在 按 字 寻 址 的 目标 机 器 上 loc 处 理会 变 得 复杂 ， 
因为 在 这 些 机 器 上 ， 当 要 指向 某 个 小 于 字 长 的 单元 ， 如 字符 时 ， 就 需要 用 额外 的 位 来 表示 字 内 的 
单元 。 为 了 区 分 字 和 字符 指针 ， 需 要 另外 增加 后 缀 和 至 少 13 种 操作 。 我 们 不 认为 这 样 规定 有 何 
不 妥 ， 但 是 到 目前 为 止 ， 我 们 还 未 使 用 按 字 寻 址 的 目标 机 器 。 

指令 系统 中 省 去 了 可 以 通过 简单 操作 组 合 实现 的 复杂 操作 。 比 如 位 域 能 通过 移 位 和 掩 码 操 
作 ， 而 不 必 设 置 专门 的 位 域 操作 。 对 于 具有 位 域 指令 的 机 器 来 说 ， 这 样 做 会 使 开发 更 趋 于 复杂 。 
另 一 方面 ， 前 端 将 一 位 的 位 域 按 特 例 处 理 ， 并 产生 高 效 的 掩 码 运算 的 dag (无 环 有 向 图 )， 这 样 生 
成 的 代码 优 于 使 用 位 域 指令 的 代码 。 

经 过 不 断 修 正 ， 通 过 将 功能 不 断 地 向 前 端 转 移 ， 减 少 接口 的 数量 ， 接 口 已 经 变 得 非常 简化 。 
例如 ， 早 期 版 本 都 有 一 个 接口 函数 和 操作 符 以 实现 switch。 每 一 次 修正 都 减 小 了 后 端 ， 但 也 留 下 
TERRE. 

一 方面 ， 前 端 过 于 集成 化 ， 比 如 在 “操作 符 x 类 型 ”的 矩阵 中 ， 曾 经 有 像 indiru 、retp 和 
cvud 这 样 的 操作 ， 减 去 元 余 的 指令 后 能 够 节省 一 些 代码 ， 但 采用 更 正规 的 操作 集 更 易于 学 习 。 青 
比如 ， 代 码 表 对 后 端 虽然 不 可 见 ， 但 可 通过 gencode 和 emitcode 遍历 它 。 有 些 人 利用 loc 来 研究 
全 局 优化 ， 需 要 对 遍历 进行 更 精细 的 控制 。 为 此 ， 他 们 使 代码 表 对 后 端 可 见 ， 即 将 代码 表 作为 
接口 ， 将 功能 更 强大 的 gencode 和 emitcode 函数 转移 到 后 端的 与 目标 无 关 的 部 分 。 这 样 的 改进 实 
际 上 是 用 等 价 的 代码 表 和 口 代替 了 local 这 样 的 接口 函数 。 提 供 代 码 表 或 是 流 图 的 接口 ， 再 加 上 
gencode 和 emitcode 的 标准 实现 ， 可 以 帮助 用 户 在 简单 性 和 灵活 性 之 间 做 出 选择 。 

另 一 方面 ， 接 口 还 可 以 进一步 简化 。 比 如 asgn 和 call 与 类 型 相关 的 变 体 可 有 不 同 数目 的 操 
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作 数 ， 这 种 变化 使 得 原来 只 需要 检查 一 般 操作 的 某 些 策略 变 得 更 复杂 。 另 外 一 个 例子 是 ， 有 些 
操作 总 生成 很 少 的 目标 代码 ; 有 些 操 作 在 部 分 目标 机 器 上 不 会 生成 任何 代码 ; 而 有 些 操作 。 如 
CVUI 和 CVIU， 在 当前 任何 可 以 想象 的 目标 机 器 上 都 不 会 生成 代码 。 像 本 书 所 描述 的 那样 ， 产 
品级 编译 器 的 后 端 ， 应 尽力 避免 产生 无 谓 的 寄存 器 - 寄存 器 型 移 数 操作 。 同 样 ， 描 述 cv{ui} x 
{os} 的 转换 也 是 毫 无 意义 的 ， 最 好 省 去 。 

如 果 没 有 遵从 某 些 接口 约定 ， 将 会 导致 微妙 的 错误 。 例 如 ， 接 口 函 数 local、function 以 及 
操作 符 callb 的 代码 ， 三 者 合作 就 可 以 为 返回 结构 的 函数 产生 代码 。 后 端 中 的 3 个 部 分 必须 很 好 
地 配合 ， 否 则 编译 器 很 容易 产生 错误 代码 。 其 实 前 端 完全 能 处 理 这 些 函 数 ， 可 以 去 掉 接口 标志 
wants_callb， 但 这 样 会 排除 一 些 已 经 建立 好 的 调用 序列 。 函 数 ARGB 和 标志 wants_argb 也 与 此 类 
似 。 综 合 考 虑 产生 相 容 的 调用 序列 代码 ， 形 成 了 一 个 较 复杂 的 代码 生成 接口 。 

lec 的 接口 设计 是 针对 单 片 集成 编译 器 (monolithic compiler) 的 ， 这 种 编译 器 的 前 后 端 连接 
成 一 个 单独 的 程序 。 这 种 做 法 很 难 将 前 端 和 后 端 分 离 成 单独 的 程序 。 有 些 接口 是 双向 的 ， 接 口 函 
数 function 上 行 调用 gencode 和 emitcode 就 是 这 样 。 通 过 这 些 上 行 调用 ， 前 端 可 以 生成 函数 入 口 
的 转换 代码 。 后 端 检查 源 语言 类 型 表示 中 的 若干 域 ， 它 使 用 前 端的 函数 (如 isstruct) 查询 类 型 。 
要 将 后 端 分 离 成 单独 的 程序 ， 就 必须 转换 类 型 数据 以 供 查询 ， 同 时 ， 后 端 还 必须 实现 函数 的 入 口 
转换 。 


19.3 ”句法 和 语义 分 析 


lce 中 的 语法 分 析 和 语义 分 析 是 穿 搬 进行 的 。 许 多 编译 器 都 采用 这 种 设计 方法 ， 它 们 基于 20 
世纪 60 年 代 就 广 为 使 用 的 经 典 的 递归 下 降 分 析 方法 。 这 种 分 析 方 法 易 理 解 ， 手 工 实现 也 较 容易 ， 
可 以 产生 高 效 的 编译 器 。 

许多 语言 (如 C) 是 设计 成 一 遍 编 译 的 ， 即 处 理 源 程序 的 同时 生成 代码 ， 像 lcc 一 样 。 大 多 
数 语言 都 遵从 先 声明 后 使 用 的 规则 : 标识 符 在 使 用 之 前 一 定 先 声明 ， 除 非 在 一 些 特殊 的 情形 下 ， 
并 且 有 某 种 机 制 保证 程序 员 可 以 理解 。 例 如 ，C 语言 的 声明 语句 


extern Tree (*optree[])(int, Tree, Tree), 


声明 了 optree， 但 不 是 对 它 进行 定义 ， 这 样 声 明 后 我 们 就 能 在 定义 它 之 前 使 用 它 。 其 他 的 例子 如 
11.5 节 一 开始 提 到 的 向 前 结构 声明 ，Pascal 也 具有 这 样 的 功能 。 这 种 声明 的 唯一 目的 就 为 了 使 一 
遍 编 译 成 为 可 能 。 

当代 程序 语言 ， 如 Modula-3 和 ML， 没 有 这 类 规则 。 在 Modula-3 中 ， 声 明 就 是 定义 ， 可 以 
为 常量 、 类 型 、 变 量 、 异 常 和 过 程 命名 ,它们 能 以 任意 的 顺序 出 现 。 它 们 出 现 的 顺序 只 会 影响 初 
始 化 代码 执行 时 的 顺序 。 这 种 灵活 性 初 看 起 来 容易 使 人 混淆 ， 但 是 与 C 语言 相 比 ，Modula-3 的 
语法 规则 和 特殊 情形 更 少 ， 从 长 远 角 度 看 Modula-3 更 容易 理解 。 

因为 必须 处 理 完整 个 源 代码 才能 解决 声明 之 间 的 相关 性 之 类 的 问题 ,具有 这 些 特征 的 语言 
要 多 遍 扫描 的 编译 器 。 这 类 编译 器 的 语义 分 析 和 语法 分 析 必 须 是 分 离 的 。 第 一 遍 扫 描 程序 通常 会 
为 整个 源 程序 建立 一 个 AST (抽象 语法 树 )， 后 续 的 扫描 将 多 次 遍历 AST， 每 遍 都 会 加 入 特定 的 
注释 。 例 如 ，Modula-3 编译 器 的 声明 处 理 遍 只 分 析 说 明 、 建 立 符号 表 ， 并 用 指向 符号 表 入 口 的 指 
针对 节点 进行 注释 。 然 后 到 代码 生成 遍 时 ， 就 可 以 访问 过 程 节点 及 其 子 节点 ， 生 成 相应 的 代码 ， 
用 与 lcc 的 代码 表 等 价 的 标记 对 过 程 节点 进行 注释 。 

lcc 的 一 遍 扫描 策略 有 其 优点 。 与 AST 比较 ， 一 遍 扫描 所 需 存 储 空 间 更 小 ， 而 且 由 于 它 构造 
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简单 ， 不 存在 建立 和 遍历 AST 的 额外 开销 ， 所 以 编译 速度 很 快 。 对 大 型 数组 进行 初始 化 时 就 能 
体现 出 这 些 优 势 ，lcc 对 其 进行 编译 时 需要 的 空间 与 最 大 的 初始 化 代码 成 正比 ， 并 能 处 理 任 意 大 
小 的 初始 化 操作 。 而 使 用 AST 的 编译 器 ， 通 常 需要 为 所 有 的 初始 化 表达 式 建立 一 棵 树 ， 为 了 避 
免 过 多 地 占用 内 存 ， 必 须 限 制 初始 化 代码 的 大 小 。 

对 当代 计算 机 来 说 ， 一 饥 扫 描 编 译 器 带 来 的 时 间 和 空间 上 的 高 效 ， 相 对 于 AST 策略 带 来 的 
灵活 性 来 说 ， 已 不 再 显得 那么 重要 了 。 对 AST 进行 多 遍 处 理 ， 可 以 简化 每 遍 的 代码 。 这 种 策略 
可 以 简化 lee 的 用 于 分 析 声 明 、 表 达 式 和 语句 的 模块 ， 使 得 本 书 的 相关 章节 更 容易 理解 。 

AST 有 助 于 将 lee 用 于 其 他 目的 。lcc 的 某 些 部 分 可 用 于 构造 浏览 器 、 为 其 他 后 端 构造 前 端 、 
为 其 他 前 端 构造 后 端 、 构 造 连接 时 (link-time) 和 运行 时 (run-time) 的 代码 生成 器 等 ， 还 能 用 于 
从 解释 器 和 调试 器 中 生成 代码 。 起 初 设计 lcc 时 并 没有 预见 到 这 些 用 途 ， 如 果 lcc 能 够 构造 AST 
并 能 让 用 户 对 AST 做 扫描 和 注释 ， 那 么 上 述 工作 实现 起 来 将 更 容易 。 


19.4 代码 生成 和 优化 


代码 生成 需要 综合 平衡 各 种 因素 。 功 能 强大 的 优化 器 能 产生 更 好 的 代码 ， 但 它们 太 大 而 且 速 
度 慢 。 介 绍 一 个 大 型 的 编译 器 会 花费 我 们 过 多 时 间 ， 而 且 这 样 的 编译 器 仅 用 一 本 书 来 讲述 也 是 不 够 
的 ; 而 一 个 速度 较 慢 的 编译 器 将 花费 我 们 和 程序 员 很 多 时 间 ， 对 于 这 些 用 户 来 说 ， 编 译 伦 费 的 时 间 
往往 是 瓶颈 。 由 此 来 看 ，lcc 能 生成 令 人 满意 的 代码 ， 但 其 他 编译 器 在 这 方面 可 以 做 得 更 出 色 。 

就 每 棵 树 独 立 来 看 ，lcc 的 指令 选择 是 最 佳 的 ， 但 相 邻 树 的 代码 的 边界 处 就 差 一 些 。lcc 可 以 
在 最 后 使 用 的 帘 孔 优化 遍 解 决 上 述 不 足 。 在 各 种 优化 方法 中 ， 帘 和 孔 技术 可 能 是 其 中 最 简单 的 一 
种 。 按 照 我 们 过 去 的 经 验 ， 它 所 生成 的 代码 最 少 。 

lce 的 接口 只 支持 代码 生成 ， 并 不 直接 支持 构造 流 图 和 其 他 有 利于 全 局 优化 的 结构 。 许 多 精 
心 设 计 的 function 和 gen 版 本 能 够 合作 实现 相关 结构 的 建立 、 执 行 优 化 、 调 用 更 简单 的 gen， 但 
从 AST 中 生成 流 图 是 更 为 一 般 的 解决 途径 。 

lce 的 寄存 器 分 配器 还 较为 原始 。 它 能 为 某 些 变量 和 局 部 公共 子 表达 式 分 配 寄存 器 ， 但 在 其 
他 方面 它 的 能 力 极为 有 限 。 目 前 采用 图 着 色 方 法 的 寄存 器 分 配器 的 能 力 更 为 出 色 。 我 们 之 所 以 没 
有 采用 功能 更 强 的 寄存 器 分 配器 ， 主 要 是 因为 这 样 做 的 话 ， 估 计 至 少 要 增加 超过 1000 行 的 代码 
(差不多 占 编译 器 的 10%)， 因 此 不 得 不 从 本 书 中 略 去 。 

目前 lce 的 SPARC 代码 需要 指令 调度 ， 将 来 调度 可 能 也 会 用 于 其 他 目标 机 器 上 。 理 想 情 况 
下 ， 调 度 与 寄存 器 分 配 是 相互 影响 的 ， 但 在 寄存 器 分 配 遍 后 考虑 调度 器 可 能 更 简单 ， 能 更 好 地 满 
足 lec 的 需要 。 


19.5 测试 和 验证 


lce 测试 的 第 一 级 是 将 产生 的 汇编 代码 及 汇编 程序 的 输出 与 保存 的 标准 汇编 程序 代码 及 输出 
进行 比较 。 有 时 我 们 希望 对 汇编 程序 代码 做 修改 ， 因 此 第 一 级 比较 就 失去 了 作用 ,但 它 仍 具有 价 
值 ， 因 为 如 果 比 较 测试 发 生 了 预期 之 外 的 不 同 ， 我 们 就 知道 某 个 对 编译 器 的 改动 造成 了 错误 。 

测试 时 有 时 候 也 使 用 ANSI C 编译 器 的 PHVS ( Plum-Hall Validation Suite) 中 语言 一 致 性 的 部 
分 。 还 用 到 从 Fortran 语言 翻译 成 的 一 系列 数值 程序 。 数 值 程序 比 起 其 他 测试 程序 来 含有 更 多 的 
变量 、 更 长 的 表达 式 、 更 多 公共 子 表达 式 ， 这 使 得 寄存 器 分 配器 工作 更 为 繁忙 ， 因 此 经 常用 于 测 
试 溢 出 。 由 于 溢出 是 比较 少见 的 ， 因 此 溢出 器 (spiller) 测试 起 来 通常 也 很 困难 。 

lce 的 测试 组 件 包括 被 称 为 故障 报告 的 材料 ， 但 我 们 希望 能 保存 更 多 信息 。 自 1988 年 起 Ice 
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就 在 AT&T 贝尔 实验 室 、 普 林 斯 顿 大 学 和 其 他 许多 地 方 使 用 ， 报 告 了 很 多 错误 、 诊 断 和 修正 。 电 
子 新 闻 组 对 每 处 修正 进行 了 总 结 ， 为 贝尔 实验 室 和 普林斯顿 大 学 的 使 用 者 提供 了 方便 ， 这 样 他 们 
可 以 判断 是 否 需要 抛弃 旧版 本 的 二 进 制 程序 。 我 们 记录 了 所 有 的 新 闻 信息 ， 今 后 将 进一步 记录 。 

首先 ， 我们 记录 了 能 够 暴露 故障 的 最 小 的 输入 数据 。 如 果 能 找 出 这 种 输入 ， 可 以 说 工作 完成 
了 一 半 。 有 些 故障 报告 只 是 记录 lee 为 程序 生成 了 错误 的 代码 ， 还 给 出 了 指向 源 代码 目录 的 指针 。 
如 果 只 有 一 个 庞大 而 费解 的 源 程序 和 几 千 行 的 目标 代码 ， 想 找 出 编译 错误 是 很 难 的 。 我 们 通常 从 
修整 程序 人 手 ， 直 到 某 个 修改 使 故障 消除 。 我 们 发 现 ， 几 乎 所 有 的 故障 最 终 都 可 由 不 超过 5 行 的 
样本 代码 展示 出 来 。 将 来 ,我们 会 把 这 些 程序 和 输入 输出 样本 一 起 保存 下 来 ， 形 成 测试 材料 ， 以 
便 今后 能 够 自动 地 重复 进行 测试 。 有 的 人 认为 某 些 难以 想象 的 故障 不 会 重复 出 现 ， 我 们 必须 消除 
这 样 的 侥幸 心理 。 有 时 当 我 们 修正 一 个 故障 时 有 可 能 引发 旧 的 故障 ， 因 此 不 得 不 再 一 次 跟踪 修改 
旧 故 障 。 如 果 这 种 情况 出 现 一 两 次 ， 上 面 测试 材料 的 作用 就 体现 出 来 了 。 

我 们 也 将 一 些 故 障 和 修正 故障 的 代码 链接 起 来 。lcc 最 初 不 是 文本 程序 ， 英语 文本 是 后 来 加 
入 代码 中 的 。 因 此 遇 到 某 些 编译 器 的 程序 片段 时 ,我们 不 可 能 马上 和 弄 明白 。 这 些 程序 片段 主要 用 
于 解决 故障 ,但 是 如 果 以 前 记录 了 大 量 的 故障 样本 ( 即 源 代码 和 输入 输出 样本 )， 并 在 旁边 加 上 注 
释 或 是 加 上 现在 已 经 去 掉 了 的 文本 程序 部 分 ， 就 可 以 节省 许多 时 间 。 

另 一 类 测试 组 件 用 于 重 定 目标 机 器 。 如 果 需 要 为 新 的 目标 机 器 编写 后 端 ， 我 们 必须 先 测试 ， 
然后 才能 实现 整个 目标 代码 生成 器 。 或 者 ， 先 实现 一 个 编译 器 能 够 编译 下 面 小 程序 : 

main() { 

printfC"Hello world\n"); 

} 
当 Joo 能 对 其 正确 进行 编译 时 ， 我 们 可 以 相信 所 有 的 简单 函数 调用 都 能 正确 处 理 (或 许 有 点 天 
真 )， 并 使 用 它们 测试 其 他 的 基本 特征 ， 而 这 些 基 本 特征 又 是 其 他 大 多 数 测 试 所 必需 的 。 整 数 赋 


main() { 
int i = 0: 
printf("%d\n", i); 


我 们 用 一 组 类 似 的 程序 继续 进行 这 样 的 测试 。 每 个 都 很 简单 ， 都 完成 一 个 新 特征 的 测试 ， 并 且 尽 
可 能 少 地 用 到 其 他 特征 ， 为 了 尽量 减少 汇编 程序 代码 大 小 和 编译 路 径 长 度 ， 必 须 看 看 测试 程序 是 
否 失败 。 我 们 也 许 不 会 花 时 间 来 收集 琐碎 的 测试 程序 作为 将 来 重 定 位 的 指导 ， 但 从 长 远 的 眼光 来 
看 ， 这 样 做 可 以 为 我 们 节省 许多 时 间 ， 而 当 你 需要 为 你 经 常 使 用 的 机 器 编写 一 个 lcc 的 后 端 时 ， 
它 能 帮 你 节约 不 少时 间 。 

深入 阅读 

Schreiner and Friedman (1985) 介绍 了 如 何 使 用 LEX (Lesk, 1975) 和 YACC (Johnson, 
1975 ) 来 构造 一 个 小 型 语言 的 实验 编译 器 。Holub (1990 ) 和 Gray et al. ( 1992 ) 介绍 了 这 些 编译 
器 工具 的 新 版 本 及 其 实现 过 程 。 

Budd (1991 ) 介绍 了 面向 对 象 程序 设计 和 面向 对 象 程 序 设计 语言 ， 包 括 SmallTalk, C++, 
ObjectPascal 和 Objective-C。 各 种 语言 的 参考 手册 都 是 关于 这 些 语言 的 权威 资料 ， 如 C++ (Ellis 
和 Stroustrup, 1990 )、Oberon-2 (Méssenbock and Wirth, 1991 ) 和 Modula-3 (Nelson, 1991 ). 

Ramsey ( 1993 ) 将 Ice 改造 成 可 重 定位 调试 器 ldb 的 表达 式 服 务 器 。 该 服务 器 接收 在 调试 过 
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程 中 遇 到 的 C 的 表达 式 和 符号 表 ， 按 照 提 供 的 符号 表 对 该 表达 式 进 行 编译 和 计算 。Ramsey 实现 
了 一 个 后 端 ， 它 生成 PostScript 而 不 是 汇编 语言 。ldb AKAY PostScript 解释 器 对 生成 的 代码 进行 
计算 ， 并 计算 表达 式 的 值 。 他 还 对 lcc 进行 了 修改 以 生成 ldb 的 符号 表 。 

Appel ( 1992 ) 介绍 了 一 种 研究 型 的 ML 编译 器 ， 该 编译 器 构造 AST， 在 编译 过 程 中 对 AST 
扫描 30 多 遍 。 

我 们 曾 发 表 过 论文 介绍 了 早期 的 lcc 版 本 (Fraser and Hanson，1991b)， 在 大 小 、 运 行 速度 
和 编译 器 所 生成 的 代码 的 运行 速度 等 方面 ， 将 lcc 与 提供 商 的 编译 器 做 了 比较 ， 同 时 还 与 VAX, 
Motorola, SPARC, MIPS R3000 上 使 用 的 gec 做 了 比较 。lce 生成 的 代码 通常 优 于 没有 经 过 优化 
的 商业 编译 器 所 生成 的 代码 。 另 一 篇 相关 的 论文 给 出 了 一 些 测试 数据 ， 这 些 测试 支持 我 们 的 直 
觉 ， 即 寄存 器 溢出 是 很 少 发 生 的 (Fraser and Hanson, 1992 )。 

Lamb (1981) 介绍 了 一 种 典型 的 窥 孔 优化 器 。 窥 孔 优 化 器 copt 非常 简单 ， 它 能 在 网 站 ftp. 
cs.princeton.edu 的 目录 pub/lcc/contrib 下 通过 匿名 ftp 进行 访问 。Davidson and Fraser ( 1984 ) 介绍 
了 一 种 由 目标 机 器 的 形式 化 描述 所 驱动 的 窥 孔 优化 器 。 

Chaitin et al. (1981 ) 通过 图 着 色 算法 介绍 了 寄存 器 分 配器 ，Krishnamurthy ( 1990 ) 综述 了 许 
多 有 关 指 令 调 度 的 文献 。Proebsting and Fischer (1991 ) 介绍 了 一 种 将 寄存 器 分 配器 与 指令 调度 结 
合 在 一 起 的 方法 ， 这 也 是 最 简单 的 方法 之 一 。 
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A Retargetable C Compiler Design and Implementation 


lcc 编 译 器 是 一 个 具有 产品 级 质量 的 可 变 目标 C 编 译 器 ， 由 AT&T 贝 尔 实验 室 和 普林斯顿 大 学 为 
ANSI C 编 程 语 言 设 计 ， 在 UNIX 界 广 为 流 行 。 本 书 称 得 上 是 一 个 文本 程序 (literate program) , iF 
lcc 的 源 代码 及 说 明 ， 在 代码 级 对 系统 的 设计 和 实现 进行 了 详细 的 介绍 5 本 书 全 面 而 真实 地 展示 了 一 
个 大 型 软件 系统 一 介绍 了 C 编 译 器 的 一 种 实现 方法 -而 不 是 只 针对 编译 过 程 中 遇 到 的 问题 给 出 解决 方 
案 ， 非 常 适合 自学 使 用 ， 也 适合 在 需要 使 用 或 实现 基于 语言 的 工具 和 技术 的 应 用 领域 ( 如 用 户 接 口 ) 
工作 的 专业 人 员 使 用 。 


本 书 特点 
。- 只 给 出 子 理解 lce 的 实现 所 需 的 编译 器 理论 ;重点 关注 实际 应 用 问题 。 
e 从 编译 器 设计 者 的 角度 讲解 C 语 言 的 特性 ， 引 导 C 程 序 员 更 好 地 掌握 语言 本 身 及 其 在 现代 计算 机 
上 的 高 效 实现 。 
e 介绍 了 完整 的 代码 生成 器 ， 代 码 生成 面向 MIPS R3000、SPARC 和 Intel 386 及 其 后 续 产品 等 不 同 
的 平台 。 
。 提供 了 lcc 编 译 器 的 完整 源 代码 、3 个 后 端 以 及 代码 生成 器 。 
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